論文の概要: Correlation-guided Query-Dependency Calibration in Video Representation
Learning for Temporal Grounding
- arxiv url: http://arxiv.org/abs/2311.08835v2
- Date: Sat, 18 Nov 2023 15:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 16:02:50.138243
- Title: Correlation-guided Query-Dependency Calibration in Video Representation
Learning for Temporal Grounding
- Title(参考訳): 時間的接地のためのビデオ表現学習における相関誘導クエリ依存性の校正
- Authors: WonJun Moon, Sangeek Hyun, SuBeen Lee, Jae-Pil Heo
- Abstract要約: 相関型検出変換器(CG-DETR)
私たちのゴールは、クロスモーダルエンコーディングプロセス内でクエリ関連ビデオクリップの手がかりを提供することです。
私たちは、各ビデオクリップのテキストエンゲージメントの度合いを利用するために、モーメント適応型サリエンシ検出器を使用します。
- 参考スコア(独自算出の注目度): 24.681134763823486
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent endeavors in video temporal grounding enforce strong cross-modal
interactions through attention mechanisms to overcome the modality gap between
video and text query. However, previous works treat all video clips equally
regardless of their semantic relevance with the text query in attention
modules. In this paper, our goal is to provide clues for query-associated video
clips within the crossmodal encoding process. With our Correlation-Guided
Detection Transformer~(CG-DETR), we explore the appropriate clip-wise degree of
cross-modal interactions and how to exploit such degrees for prediction. First,
we design an adaptive cross-attention layer with dummy tokens. Dummy tokens
conditioned by text query take a portion of the attention weights, preventing
irrelevant video clips from being represented by the text query. Yet, not all
word tokens equally inherit the text query's correlation to video clips. Thus,
we further guide the cross-attention map by inferring the fine-grained
correlation between video clips and words. We enable this by learning a joint
embedding space for high-level concepts, i.e., moment and sentence level, and
inferring the clip-word correlation. Lastly, we use a moment-adaptive saliency
detector to exploit each video clip's degrees of text engagement. We validate
the superiority of CG-DETR with the state-of-the-art results on various
benchmarks for both moment retrieval and highlight detection. Codes are
available at https://github.com/wjun0830/CGDETR.
- Abstract(参考訳): 映像の時間的接地における最近の取り組みは,映像とテキストの問合せ間のモーダリティギャップを克服するために,注意機構を通じて強いクロスモーダルインタラクションを強制する。
しかしながら、以前の作品では、アテンションモジュールのテキストクエリと意味的関連性に関係なく、すべてのビデオクリップを等しく扱っている。
本稿では,クロスモーダル符号化プロセスにおいて,クエリ関連ビデオクリップの手がかりを提供する。
相関誘導型検出トランスー(cg-detr)を用いて,クロスモーダル相互作用の適切なクリップ回りの程度と,その程度を予測に利用する方法について検討した。
まず,ダミートークンを用いた適応型クロスアテンション層を設計する。
テキストクエリによって条件付けられたダミートークンは注意重みの一部を取り、無関係なビデオクリップがテキストクエリで表現されないようにする。
しかし、すべての単語トークンがビデオクリップに対するテキストクエリの相関を等しく継承しているわけではない。
そこで,ビデオクリップと単語の細粒度相関を推定し,クロスアテンションマップを導出する。
これを実現するために,ハイレベル概念,すなわちモーメントと文レベルの合同埋め込み空間を学習し,クリップワード相関を推定する。
最後に、各ビデオクリップのテキストエンゲージメントの度合いを利用するために、モーメント適応型サリエンシ検出器を使用します。
モーメント検索とハイライト検出の両ベンチマークにおいて,cg-detrの優位性を最先端の結果で検証した。
コードはhttps://github.com/wjun0830/cgdetrで入手できる。
関連論文リスト
- Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection [8.74967598360817]
MR/HDの主な目的は、あるテキストクエリに対して、モーメントをローカライズし、クリップワイドアコーディネートレベル、すなわち、サリエンシスコアを推定することである。
最近のトランスフォーマーベースのモデルは、与えられたクエリの情報を完全に活用していない。
本稿ではMR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
論文 参考訳(メタデータ) (2023-03-24T09:32:50Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - TempCLR: Temporal Alignment Representation with Contrastive Learning [35.12182087403215]
本稿では,全ビデオと段落を明示的に比較するために,対照的な学習フレームワークであるTempCLRを提案する。
ビデオと段落の事前学習に加えて,ビデオインスタンス間のマッチングも一般化できる。
論文 参考訳(メタデータ) (2022-12-28T08:10:31Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval [32.11951065619957]
我々は、クリップが長い未編集ビデオの一部であるクロスモーダルクリップ文検索のタスクを再検討する。
クリップが短く、あるいは視覚的に曖昧である場合には、その局所的時間的文脈に関する知識を用いて検索性能を向上させることができる。
本研究では,ビデオクリップとローカルな時間的コンテキスト間の相互作用をモデル化し,その埋め込み表現を強化するエンコーダアーキテクチャであるContext Transformer (ConTra)を提案する。
論文 参考訳(メタデータ) (2022-10-09T20:11:38Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - HunYuan_tvr for Text-Video Retrivial [23.650824732136158]
HunYuan_tvrはビデオ文、クリップフレーズ、フレームワード関係を同時に探索することで階層的相互モーダル相互作用を探索する。
HunYuan_tvr は、それぞれ MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet の Rank@1 of 55.0%, 57.8%, 29.7%, 52.1%, 57.3% といった様々なベンチマークで、新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-07T11:59:36Z) - Video and Text Matching with Conditioned Embeddings [81.81028089100727]
本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。
本研究では、クエリの関連情報を考慮し、データセットデータをエンコードする。
我々は、条件付き表現をビデオ誘導機械翻訳に転送し、VATEXの現在の結果を改善した。
論文 参考訳(メタデータ) (2021-10-21T17:31:50Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。