論文の概要: CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding
- arxiv url: http://arxiv.org/abs/2209.10918v2
- Date: Tue, 30 May 2023 02:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 02:35:53.836453
- Title: CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding
- Title(参考訳): CONE: 長時間ビデオの時間的接地のための効率的な粗面と有限面のアライメントフレームワーク
- Authors: Zhijian Hou, Wanjun Zhong, Lei Ji, Difei Gao, Kun Yan, Wing-Kwong
Chan, Chong-Wah Ngo, Zheng Shou, Nan Duan
- Abstract要約: 本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
- 参考スコア(独自算出の注目度): 70.7882058229772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles an emerging and challenging problem of long video temporal
grounding~(VTG) that localizes video moments related to a natural language (NL)
query. Compared with short videos, long videos are also highly demanded but
less explored, which brings new challenges in higher inference computation cost
and weaker multi-modal alignment. To address these challenges, we propose CONE,
an efficient COarse-to-fiNE alignment framework. CONE is a plug-and-play
framework on top of existing VTG models to handle long videos through a sliding
window mechanism. Specifically, CONE (1) introduces a query-guided window
selection strategy to speed up inference, and (2) proposes a coarse-to-fine
mechanism via a novel incorporation of contrastive learning to enhance
multi-modal alignment for long videos. Extensive experiments on two large-scale
long VTG benchmarks consistently show both substantial performance gains (e.g.,
from 3.13% to 6.87% on MAD) and state-of-the-art results. Analyses also reveal
higher efficiency as the query-guided window selection mechanism accelerates
inference time by 2x on Ego4D-NLQ and 15x on MAD while keeping SOTA results.
Codes have been released at https://github.com/houzhijian/CONE.
- Abstract(参考訳): 本稿では、自然言語(NL)クエリに関連するビデオモーメントをローカライズする長大なビデオ時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオも要求されるが、探究が減り、高い推論計算コストとより弱いマルチモーダルアライメントの新たな課題がもたらされる。
これらの課題に対処するため,我々は,効率的な粒度調整フレームワークであるconanを提案する。
CONEは既存のVTGモデルの上にプラグアンドプレイのフレームワークで、スライドウィンドウ機構を通じて長いビデオを処理する。
具体的には,(1)推論を高速化するクエリ誘導ウィンドウ選択戦略を導入し,(2)コントラスト学習を取り入れた粗大なメカニズムを提案し,長いビデオのマルチモーダルアライメントを強化する。
大規模な2つのVTGベンチマークの大規模な実験は、連続して実質的なパフォーマンス向上(MADでは3.13%から6.87%)と最先端の結果の両方を示している。
また、クエリ誘導ウィンドウ選択機構は、Ego4D-NLQで2倍、MADで15倍の推論時間を加速し、SOTA結果を保ちながら効率が向上する。
コードはhttps://github.com/houzhijian/coneでリリースされた。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - SnAG: Scalable and Accurate Video Grounding [10.578025234151596]
ビデオにおけるテキスト記述の時間的基盤は、視覚言語学習とビデオ理解において中心的な問題である。
ビデオグラウンドモデルのスケーラビリティに及ぼすクロスモーダル融合の影響について検討する。
我々は、スケーラブルで正確なビデオグラウンドのためのシンプルなベースラインであるSnAGを提示する。
論文 参考訳(メタデータ) (2024-04-02T19:25:04Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。