論文の概要: Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos
- arxiv url: http://arxiv.org/abs/2110.06058v1
- Date: Tue, 12 Oct 2021 14:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:49:11.352683
- Title: Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos
- Title(参考訳): ビデオにおける時間的言語定位のためのマルチモーダルインタラクショングラフ畳み込みネットワーク
- Authors: Zongmeng Zhang, Xianjing Han, Xuemeng Song, Yan Yan and Liqiang Nie
- Abstract要約: 本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
- 参考スコア(独自算出の注目度): 55.52369116870822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on tackling the problem of temporal language localization
in videos, which aims to identify the start and end points of a moment
described by a natural language sentence in an untrimmed video. However, it is
non-trivial since it requires not only the comprehensive understanding of the
video and sentence query, but also the accurate semantic correspondence capture
between them. Existing efforts are mainly centered on exploring the sequential
relation among video clips and query words to reason the video and sentence
query, neglecting the other intra-modal relations (e.g., semantic similarity
among video clips and syntactic dependency among the query words). Towards this
end, in this work, we propose a Multi-modal Interaction Graph Convolutional
Network (MIGCN), which jointly explores the complex intra-modal relations and
inter-modal interactions residing in the video and sentence query to facilitate
the understanding and semantic correspondence capture of the video and sentence
query. In addition, we devise an adaptive context-aware localization method,
where the context information is taken into the candidate moments and the
multi-scale fully connected layers are designed to rank and adjust the boundary
of the generated coarse candidate moments with different lengths. Extensive
experiments on Charades-STA and ActivityNet datasets demonstrate the promising
performance and superior efficiency of our model.
- Abstract(参考訳): 本稿では,ビデオ中の時間的言語ローカライゼーションの問題に対処することに焦点を当て,自然言語文で記述されたモーメントの開始点と終了点を特定することを目的とした。
しかし、ビデオと文問合せの包括的理解だけでなく、それらの間の正確な意味的対応も必要となるため、これは簡単ではない。
既存の取り組みは主に、ビデオクリップ間のシーケンシャルな関係を探求し、ビデオと文のクエリを推論し、他のモード内関係を無視する(例えば、ビデオクリップ間の意味的類似性とクエリワード間の構文依存)。
そこで本研究では,ビデオと文の問合せに含まれる複雑なモーダル内関係とモーダル間相互作用を共同研究し,映像と文の問合せの理解と意味的対応の獲得を容易にするマルチモーダルインタラクショングラフ畳み込みネットワーク(migcn)を提案する。
また,提案手法では,コンテキスト情報を候補モーメントに取り込み,マルチスケールの完全連結層を,生成した粗い候補モーメントの境界を異なる長さでランク付け・調整するように設計する適応的コンテキストアウェア・ローカライズ手法を提案する。
charades-sta と activitynet データセットに関する広範な実験により,本モデルの有望な性能と優れた効率を示す。
関連論文リスト
- Disentangle and denoise: Tackling context misalignment for video moment retrieval [16.939535169282262]
Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内のビデオモーメントを見つけることを目的としている。
本稿では,正確なモーダル・モーダル・コンテクスト・デノイング・ネットワーク(CDNet)を提案する。
論文 参考訳(メタデータ) (2024-08-14T15:00:27Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。