論文の概要: Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding
- arxiv url: http://arxiv.org/abs/2410.13598v1
- Date: Thu, 17 Oct 2024 14:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:33.547684
- Title: Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding
- Title(参考訳): ビデオの時間的グラウンドをホロスティックなテキストで理解する
- Authors: Jongbhin Woo, Hyeonggon Ryu, Youngjoon Jang, Jae Won Cho, Joon Son Chung,
- Abstract要約: Video Temporal Groundingは、テキストクエリにマッチするビデオクリップ内の視覚的フレームを特定することを目的としている。
VTGの最近の研究は、視覚フレームとテキストクエリを個々のトークンシーケンスとして関連付けるために、クロスアテンションを使用している。
本稿では,全体的テキスト情報を含む視覚的フレームレベルゲート機構を提案する。
- 参考スコア(独自算出の注目度): 17.110563457914324
- License:
- Abstract: Video Temporal Grounding (VTG) aims to identify visual frames in a video clip that match text queries. Recent studies in VTG employ cross-attention to correlate visual frames and text queries as individual token sequences. However, these approaches overlook a crucial aspect of the problem: a holistic understanding of the query sentence. A model may capture correlations between individual word tokens and arbitrary visual frames while possibly missing out on the global meaning. To address this, we introduce two primary contributions: (1) a visual frame-level gate mechanism that incorporates holistic textual information, (2) cross-modal alignment loss to learn the fine-grained correlation between query and relevant frames. As a result, we regularize the effect of individual word tokens and suppress irrelevant visual frames. We demonstrate that our method outperforms state-of-the-art approaches in VTG benchmarks, indicating that holistic text understanding guides the model to focus on the semantically important parts within the video.
- Abstract(参考訳): Video Temporal Grounding (VTG)は、テキストクエリにマッチするビデオクリップ内の視覚的フレームを特定することを目的としている。
VTGの最近の研究は、視覚フレームとテキストクエリを個々のトークンシーケンスとして関連付けるために、クロスアテンションを使用している。
しかし、これらのアプローチは、クエリ文の全体的理解という、問題の重要な側面を見落としている。
モデルは、個々の単語トークンと任意の視覚的フレームの相関を捉え、グローバルな意味を欠いている可能性がある。
そこで本研究では,1) 全体的テキスト情報を含む視覚的フレームレベルゲート機構,(2) クエリと関連するフレーム間の微妙な相関関係を学習するためのモーダルアライメント損失について紹介する。
その結果、個々の単語トークンの効果を規則化し、無関係な視覚的フレームを抑圧する。
提案手法は,VTGベンチマークにおける最先端の手法よりも優れており,ビデオ内の意味的に重要な部分に焦点を絞るために,総合的なテキスト理解がモデルを導くことを示唆している。
関連論文リスト
- Correlation-Guided Query-Dependency Calibration for Video Temporal Grounding [22.59291334338824]
相関ガイドによる検出TRansformerは、クエリ関連ビデオクリップのヒントを提供する。
CG-DETRは時間的接地のための様々なベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-15T10:22:35Z) - LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation [18.832338318596648]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のテキスト表現によって参照されるターゲットインスタンスをビデオクリップにセグメントすることを目的としている。
テキスト表現は通常、インスタンスの外観、動作、および他者との関係に関する洗練された記述を含む。
本稿では,元来の長文表現から主語中心の短文表現を取り出すことにより,この問題に対処する。
論文 参考訳(メタデータ) (2023-06-14T20:40:28Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。