論文の概要: Parallel Attention Network with Sequence Matching for Video Grounding
- arxiv url: http://arxiv.org/abs/2105.08481v1
- Date: Tue, 18 May 2021 12:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:16:30.937956
- Title: Parallel Attention Network with Sequence Matching for Video Grounding
- Title(参考訳): ビデオグラウンドのためのシーケンスマッチングを用いた並列アテンションネットワーク
- Authors: Hao Zhang, Aixin Sun, Wei Jing, Liangli Zhen, Joey Tianyi Zhou, Rick
Siow Mong Goh
- Abstract要約: ビデオのグラウンドティングは、意味的に言語クエリに対応する時間モーメントを検索することを目的としている。
この課題を解決するために、シーケンスマッチング(SeqPAN)を備えた並列アテンションネットワークを提案します。
- 参考スコア(独自算出の注目度): 56.649826885121264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a video, video grounding aims to retrieve a temporal moment that
semantically corresponds to a language query. In this work, we propose a
Parallel Attention Network with Sequence matching (SeqPAN) to address the
challenges in this task: multi-modal representation learning, and target moment
boundary prediction. We design a self-guided parallel attention module to
effectively capture self-modal contexts and cross-modal attentive information
between video and text. Inspired by sequence labeling tasks in natural language
processing, we split the ground truth moment into begin, inside, and end
regions. We then propose a sequence matching strategy to guide start/end
boundary predictions using region labels. Experimental results on three
datasets show that SeqPAN is superior to state-of-the-art methods. Furthermore,
the effectiveness of the self-guided parallel attention module and the sequence
matching module is verified.
- Abstract(参考訳): ビデオグラウンディングは、意味的に言語クエリに対応する時間モーメントを検索することを目的としている。
本研究では,マルチモーダル表現学習とターゲットモーメント境界予測という課題に対処するために,シーケンスマッチングを用いた並列注意ネットワーク(SeqPAN)を提案する。
我々は,ビデオとテキスト間の自己モダルコンテキストとクロスモダル注意情報を効果的に捉えるために,自己誘導型並列アテンションモジュールを設計した。
自然言語処理におけるシーケンスラベリングタスクにインスパイアされた我々は、真理モーメントを開始、内部、終了領域に分割した。
次に,領域ラベルを用いた開始/終了境界予測を導くシーケンスマッチング戦略を提案する。
3つのデータセットの実験結果は、SeqPANが最先端の手法よりも優れていることを示している。
さらに、自己誘導並列注意モジュールとシーケンスマッチングモジュールの有効性を検証する。
関連論文リスト
- VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Looking for the Signs: Identifying Isolated Sign Instances in Continuous
Video Footage [45.29710323525548]
ビデオクリップから時間的表現を抽出するために,SignLookupと呼ばれるトランスフォーマーベースのネットワークを提案する。
本モデルでは,ベンチマークデータセットの精度を96%にまで向上させる。
論文 参考訳(メタデータ) (2021-07-21T12:49:44Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。