論文の概要: VLG-Net: Video-Language Graph Matching Network for Video Grounding
- arxiv url: http://arxiv.org/abs/2011.10132v2
- Date: Mon, 16 Aug 2021 14:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:26:04.333785
- Title: VLG-Net: Video-Language Graph Matching Network for Video Grounding
- Title(参考訳): vlg-net:ビデオグラウンディングのためのビデオ言語グラフマッチングネットワーク
- Authors: Mattia Soldan, Mengmeng Xu, Sisi Qu, Jesper Tegner, Bernard Ghanem
- Abstract要約: ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 57.6661145190528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding language queries in videos aims at identifying the time interval
(or moment) semantically relevant to a language query. The solution to this
challenging task demands understanding videos' and queries' semantic content
and the fine-grained reasoning about their multi-modal interactions. Our key
idea is to recast this challenge into an algorithmic graph matching problem.
Fueled by recent advances in Graph Neural Networks, we propose to leverage
Graph Convolutional Networks to model video and textual information as well as
their semantic alignment. To enable the mutual exchange of information across
the modalities, we design a novel Video-Language Graph Matching Network
(VLG-Net) to match video and query graphs. Core ingredients include
representation graphs built atop video snippets and query tokens separately and
used to model intra-modality relationships. A Graph Matching layer is adopted
for cross-modal context modeling and multi-modal fusion. Finally, moment
candidates are created using masked moment attention pooling by fusing the
moment's enriched snippet features. We demonstrate superior performance over
state-of-the-art grounding methods on three widely used datasets for temporal
localization of moments in videos with language queries: ActivityNet-Captions,
TACoS, and DiDeMo.
- Abstract(参考訳): ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(あるいはモーメント)を特定することを目的としている。
この課題に対する解決策は、ビデオとクエリのセマンティックコンテンツを理解し、それらのマルチモーダルインタラクションに関するきめ細かい推論を必要とする。
私たちの重要なアイデアは、この課題をアルゴリズム的グラフマッチング問題に再キャストすることです。
グラフニューラルネットワークの最近の進歩により,ビデオやテキスト情報のモデル化やセマンティックアライメントのモデル化にGraph Convolutional Networksを活用することを提案する。
モダリティ間の情報の相互交換を可能にするために、ビデオとクエリグラフをマッチングする新しいビデオ言語グラフマッチングネットワーク(vlg-net)を設計する。
中心となる要素は、ビデオスニペット上に構築された表現グラフと、モダリティ内関係のモデル化に使用されるクエリトークンである。
グラフマッチング層は、クロスモーダルコンテキストモデリングとマルチモーダル融合に採用されている。
最後に、モーメント候補はモーメントの強化されたスニペット機能を用いてマスクモーメントアテンションプールを使用して作成される。
言語クエリ付きビデオにおけるモーメントの時間的ローカライズのための3つの広く使われているデータセット(ActivityNet-Captions, TACoS, DiDeMo)に対して、最先端のグラウンド法よりも優れた性能を示す。
関連論文リスト
- RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language
Models [33.56759621666477]
本稿では,言語モデルへのグラフ知識の統合を評価するためのベンチマークデータセットを提案する。
提案したデータセットは,グラフの理解能力を評価し,回答生成に利用するように設計されている。
言語のみのモデルと提案したグラフ言語モデルを用いて,ペアグラフの有用性を検証し,課題の難しさを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:46:58Z) - Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos [0.40778318140713216]
本研究ではSemantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化する。
我々は,映像行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
論文 参考訳(メタデータ) (2022-09-13T00:01:23Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Relation-aware Video Reading Comprehension for Temporal Language
Grounding [67.5613853693704]
ビデオ中の時間的言語基盤は、与えられたクエリ文に関連する時間的スパンをローカライズすることを目的としている。
本稿では,映像読解の時間的基盤を定式化し,それに対応する関係認識ネットワーク(RaNet)を提案する。
論文 参考訳(メタデータ) (2021-10-12T03:10:21Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。