論文の概要: Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos
- arxiv url: http://arxiv.org/abs/2008.02448v1
- Date: Thu, 6 Aug 2020 04:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:10:57.163587
- Title: Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos
- Title(参考訳): ビデオにおける時間的局所化のための細粒度反復注意ネットワーク
- Authors: Xiaoye Qu, Pengwei Tang, Zhikang Zhou, Yu Cheng, Jianfeng Dong, Pan
Zhou
- Abstract要約: ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
- 参考スコア(独自算出の注目度): 63.94898634140878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal language localization in videos aims to ground one video segment in
an untrimmed video based on a given sentence query. To tackle this task,
designing an effective model to extract ground-ing information from both visual
and textual modalities is crucial. However, most previous attempts in this
field only focus on unidirectional interactions from video to query, which
emphasizes which words to listen and attends to sentence information via
vanilla soft attention, but clues from query-by-video interactions implying
where to look are not taken into consideration. In this paper, we propose a
Fine-grained Iterative Attention Network (FIAN) that consists of an iterative
attention module for bilateral query-video in-formation extraction.
Specifically, in the iterative attention module, each word in the query is
first enhanced by attending to each frame in the video through fine-grained
attention, then video iteratively attends to the integrated query. Finally,
both video and query information is utilized to provide robust cross-modal
representation for further moment localization. In addition, to better predict
the target segment, we propose a content-oriented localization strategy instead
of applying recent anchor-based localization. We evaluate the proposed method
on three challenging public benchmarks: Ac-tivityNet Captions, TACoS, and
Charades-STA. FIAN significantly outperforms the state-of-the-art approaches.
- Abstract(参考訳): ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメント1つを未トリミングビデオにグラウンドすることを目的としている。
この課題に取り組むためには,視覚とテキストの両方から基礎情報を抽出する効果的なモデルを設計することが重要である。
しかし、この分野でのこれまでの試みは、ビデオからクエリへの一方向的な相互作用にのみ焦点を絞っており、どの単語を聴き、文情報に順応すべきかを、バニラソフトな注意で強調する。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
具体的には、繰り返しアテンションモジュールにおいて、ビデオ内の各フレームに細かなアテンションを施した後、ビデオが統合クエリーに反復的に出席することで、クエリ内の各ワードを最初に強化する。
最後に、ビデオ情報とクエリ情報の両方を用いて、さらなるモーダル化を実現する。
さらに,ターゲットセグメントの予測精度を向上させるために,最近のアンカーベースのローカライズに代えて,コンテンツ指向のローカライズ戦略を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価する。
FIANは最先端のアプローチよりも優れています。
関連論文リスト
- Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。