論文の概要: Relation-aware Video Reading Comprehension for Temporal Language
Grounding
- arxiv url: http://arxiv.org/abs/2110.05717v1
- Date: Tue, 12 Oct 2021 03:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 12:35:51.165819
- Title: Relation-aware Video Reading Comprehension for Temporal Language
Grounding
- Title(参考訳): 時間的言語接地のための関係認識ビデオ読解
- Authors: Jialin Gao, Xin Sun, Mengmeng Xu, Xi Zhou and Bernard Ghanem
- Abstract要約: ビデオ中の時間的言語基盤は、与えられたクエリ文に関連する時間的スパンをローカライズすることを目的としている。
本稿では,映像読解の時間的基盤を定式化し,それに対応する関係認識ネットワーク(RaNet)を提案する。
- 参考スコア(独自算出の注目度): 67.5613853693704
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal language grounding in videos aims to localize the temporal span
relevant to the given query sentence. Previous methods treat it either as a
boundary regression task or a span extraction task. This paper will formulate
temporal language grounding into video reading comprehension and propose a
Relation-aware Network (RaNet) to address it. This framework aims to select a
video moment choice from the predefined answer set with the aid of
coarse-and-fine choice-query interaction and choice-choice relation
construction. A choice-query interactor is proposed to match the visual and
textual information simultaneously in sentence-moment and token-moment levels,
leading to a coarse-and-fine cross-modal interaction. Moreover, a novel
multi-choice relation constructor is introduced by leveraging graph convolution
to capture the dependencies among video moment choices for the best choice
selection. Extensive experiments on ActivityNet-Captions, TACoS, and
Charades-STA demonstrate the effectiveness of our solution. Codes will be
released soon.
- Abstract(参考訳): ビデオにおける時間言語グラウンドニングは、与えられたクエリ文に関連する時間的スパンをローカライズすることを目的としている。
以前の方法は、境界回帰タスクまたはスパン抽出タスクとして扱う。
本稿では,映像読解の時間的基盤を定式化し,それに対応する関係認識ネットワーク(RaNet)を提案する。
このフレームワークは、粗い選択-クエリ相互作用と選択-選択関係構築の助けを借りて、予め定義された回答セットからビデオモーメント選択を選択することを目的としている。
文-モーメントレベルとトークン-モーメントレベルで同時に視覚情報とテキスト情報とを一致させるために,選択クエリの対話器を提案する。
さらに、グラフ畳み込みを利用して最適な選択選択のためにビデオモーメント選択間の依存関係をキャプチャすることにより、新しいマルチチョース関係コンストラクタを導入する。
ActivityNet-Captions, TACoS, Charades-STAの大規模な実験により, 本ソリューションの有効性が示された。
コードはまもなくリリースされる予定だ。
関連論文リスト
- Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。
モーダル固有のPseudo Query Generation Network (MPGN) を提案する。
MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。
我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文 参考訳(メタデータ) (2022-10-23T05:05:18Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。