論文の概要: Correlation-guided Query-Dependency Calibration in Video Representation Learning for Temporal Grounding
- arxiv url: http://arxiv.org/abs/2311.08835v3
- Date: Sat, 30 Mar 2024 11:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 15:15:12.062302
- Title: Correlation-guided Query-Dependency Calibration in Video Representation Learning for Temporal Grounding
- Title(参考訳): 時間的接地のためのビデオ表現学習における相関誘導クエリ依存性の校正
- Authors: WonJun Moon, Sangeek Hyun, SuBeen Lee, Jae-Pil Heo,
- Abstract要約: 相関ガイドによる検出TRansformerは、クエリ関連ビデオクリップのヒントを提供する。
CG-DETRは時間的接地のための様々なベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 22.59291334338824
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video Temporal Grounding is to identify specific moments or highlights from a video corresponding to textual descriptions. Typical approaches in temporal grounding treat all video clips equally during the encoding process regardless of their semantic relevance with the text query. Therefore, we propose Correlation-Guided DEtection TRansformer(CG-DETR), exploring to provide clues for query-associated video clips within the cross-modal attention. First, we design an adaptive cross-attention with dummy tokens. Dummy tokens conditioned by text query take portions of the attention weights, preventing irrelevant video clips from being represented by the text query. Yet, not all words equally inherit the text query's correlation to video clips. Thus, we further guide the cross-attention map by inferring the fine-grained correlation between video clips and words. We enable this by learning a joint embedding space for high-level concepts, i.e., moment and sentence level, and inferring the clip-word correlation. Lastly, we exploit the moment-specific characteristics and combine them with the context of each video to form a moment-adaptive saliency detector. By exploiting the degrees of text engagement in each video clip, it precisely measures the highlightness of each clip. CG-DETR achieves state-of-the-art results on various benchmarks for temporal grounding.
- Abstract(参考訳): ビデオ時間グラウンド(英語: Video Temporal Grounding)とは、テキスト記述に対応するビデオから特定の瞬間やハイライトを特定することである。
時間的グラウンドディングにおける典型的なアプローチは、テキストクエリと意味的関連性にかかわらず、エンコーディングプロセス中にすべてのビデオクリップを等しく扱う。
そこで本研究では,クロスモーダルアテンション内での問合せ関連ビデオクリップの手がかりを提供するための相関型検出TRansformer(CG-DETR)を提案する。
まず,ダミートークンを用いた適応的クロスアテンションを設計する。
テキストクエリによって条件付けられたダミートークンは、注意重みの一部を取り、無関係なビデオクリップがテキストクエリで表現されるのを防ぐ。
しかし、すべての単語が、ビデオクリップに対するテキストクエリの相関を均等に継承するわけではない。
そこで我々は,ビデオクリップと単語の微妙な相関関係を推定することにより,クロスアテンションマップをさらにガイドする。
我々は,高レベルな概念,すなわちモーメントと文レベルの共同埋め込み空間を学習し,クリップワードの相関関係を推定することで,これを実現できる。
最後に、モーメント固有の特徴を利用して、各ビデオのコンテキストと組み合わせて、モーメント適応型サリエンシ検出器を形成する。
各ビデオクリップのテキストエンゲージメントの度合いを利用して、各クリップのハイライト度を正確に測定する。
CG-DETRは時間的接地のための様々なベンチマークで最先端の結果を得る。
関連論文リスト
- Leveraging Temporal Contextualization for Video Action Recognition [47.8361303269338]
本稿では,ビデオ理解の先駆的フレームワークであるTemporally Contextualized CLIP (TC-CLIP)を紹介する。
本稿では,ビデオの時間的情報注入機構である時間的コンテキスト化(TC)を提案する。
我々は,TC-CLIPを検証するため,ゼロショット,少数ショット,ベース・ツー・ノーベル,完全教師付きアクション認識において広範な実験を行う。
論文 参考訳(メタデータ) (2024-04-15T06:24:56Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - TempCLR: Temporal Alignment Representation with Contrastive Learning [35.12182087403215]
本稿では,全ビデオと段落を明示的に比較するために,対照的な学習フレームワークであるTempCLRを提案する。
ビデオと段落の事前学習に加えて,ビデオインスタンス間のマッチングも一般化できる。
論文 参考訳(メタデータ) (2022-12-28T08:10:31Z) - ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval [32.11951065619957]
我々は、クリップが長い未編集ビデオの一部であるクロスモーダルクリップ文検索のタスクを再検討する。
クリップが短く、あるいは視覚的に曖昧である場合には、その局所的時間的文脈に関する知識を用いて検索性能を向上させることができる。
本研究では,ビデオクリップとローカルな時間的コンテキスト間の相互作用をモデル化し,その埋め込み表現を強化するエンコーダアーキテクチャであるContext Transformer (ConTra)を提案する。
論文 参考訳(メタデータ) (2022-10-09T20:11:38Z) - HunYuan_tvr for Text-Video Retrivial [23.650824732136158]
HunYuan_tvrはビデオ文、クリップフレーズ、フレームワード関係を同時に探索することで階層的相互モーダル相互作用を探索する。
HunYuan_tvr は、それぞれ MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet の Rank@1 of 55.0%, 57.8%, 29.7%, 52.1%, 57.3% といった様々なベンチマークで、新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-07T11:59:36Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。