論文の概要: CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding
- arxiv url: http://arxiv.org/abs/2209.10918v1
- Date: Thu, 22 Sep 2022 10:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:18:38.325937
- Title: CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding
- Title(参考訳): CONE: 長時間ビデオの時間的接地のための効率的な粗面と有限面のアライメントフレームワーク
- Authors: Zhijian Hou, Wanjun Zhong, Lei Ji, Difei Gao, Kun Yan, Wing-Kwong
Chan, Chong-Wah Ngo, Zheng Shou, Nan Duan
- Abstract要約: ビデオ時間的グラウンド(VTG)は、自然言語(NL)の記述に従って、未トリミングビデオ中の時間的モーメントをローカライズすることを目的としている。
現実世界のアプリケーションは、絶え間なく続くビデオストリームを提供するので、ロングフォームビデオの時間的グラウンド化の需要が高まる。
提案するConEは、より高速な長大なビデオ入力を処理できる、効率的なウィンドウ中心のCoarse-to-fiNEアライメントフレームワークである。
- 参考スコア(独自算出の注目度): 70.7882058229772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal grounding (VTG) targets to localize temporal moments in an
untrimmed video according to a natural language (NL) description. Since
real-world applications provide a never-ending video stream, it raises demands
for temporal grounding for long-form videos, which leads to two major
challenges: (1) the long video length makes it difficult to process the entire
video without decreasing sample rate and leads to high computational burden;
(2) the accurate multi-modal alignment is more challenging as the number of
moment candidates increases. To address these challenges, we propose CONE, an
efficient window-centric COarse-to-fiNE alignment framework, which flexibly
handles long-form video inputs with higher inference speed, and enhances the
temporal grounding via our novel coarse-to-fine multi-modal alignment
framework. Specifically, we dynamically slice the long video into candidate
windows via a sliding window approach. Centering at windows, CONE (1) learns
the inter-window (coarse-grained) semantic variance through contrastive
learning and speeds up inference by pre-filtering the candidate windows
relevant to the NL query, and (2) conducts intra-window (fine-grained)
candidate moments ranking utilizing the powerful multi-modal alignment ability
of a contrastive vision-text pre-trained model. Extensive experiments on two
large-scale VTG benchmarks for long videos consistently show a substantial
performance gain (from 3.13% to 6.87% on MAD and from 10.46% to 13.46% on
Ego4d-NLQ) and CONE achieves the SOTA results on both datasets. Analysis
reveals the effectiveness of components and higher efficiency in long video
grounding as our system improves the inference speed by 2x on Ego4d-NLQ and 15x
on MAD while keeping the SOTA performance of CONE.
- Abstract(参考訳): ビデオ時間グラウンド(VTG)は、自然言語(NL)の記述に従って、未トリミングビデオ中の時間モーメントをローカライズする。
実世界のアプリケーションは、絶え間ないビデオストリームを提供するため、長大ビデオの時間的グラウンド化の要求が高まるため、(1)長大ビデオ長は、サンプルレートを低下させることなく動画全体を処理し難くし、(2)正確なマルチモーダルアライメントは、モーメント候補の数が増えるにつれてより困難である。
これらの課題に対処するため,我々は,長い形式の映像入力を高い推論速度で柔軟に処理し,より効率的なウィンドウ中心の粗モダルアライメントフレームワークであるconanを提案する。
具体的には、スライディングウィンドウアプローチにより、長いビデオを候補ウィンドウに動的にスライスする。
ウィンドウを中心に、コーン(1)は、コントラスト学習を通じてウィンドウ間意味分散を学習し、nlクエリに関連する候補ウィンドウを予めフィルタすることにより推論を高速化し、(2)コントラスト視覚テキスト事前学習モデルの強力なマルチモーダルアライメント能力を利用してウィンドウ内候補モーメントランキングを行う。
ロングビデオ用の2つの大規模なVTGベンチマークの大規模な実験は、一貫してパフォーマンスが大幅に向上し(MADは3.13%から6.87%、Ego4d-NLQは10.46%から13.46%)、CONEは両方のデータセットでSOTA結果を達成する。
Ego4d-NLQ では2倍,MAD では15倍,CONE ではSOTA 性能を維持しながら推論速度は2倍向上する。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - SnAG: Scalable and Accurate Video Grounding [10.578025234151596]
ビデオにおけるテキスト記述の時間的基盤は、視覚言語学習とビデオ理解において中心的な問題である。
ビデオグラウンドモデルのスケーラビリティに及ぼすクロスモーダル融合の影響について検討する。
我々は、スケーラブルで正確なビデオグラウンドのためのシンプルなベースラインであるSnAGを提示する。
論文 参考訳(メタデータ) (2024-04-02T19:25:04Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。