論文の概要: Local-Global Video-Text Interactions for Temporal Grounding
- arxiv url: http://arxiv.org/abs/2004.07514v1
- Date: Thu, 16 Apr 2020 08:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 21:47:53.001766
- Title: Local-Global Video-Text Interactions for Temporal Grounding
- Title(参考訳): 時間的接地のためのローカル・グローバルビデオテキストインタラクション
- Authors: Jonghwan Mun, Minsu Cho, Bohyung Han
- Abstract要約: 本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
- 参考スコア(独自算出の注目度): 77.5114709695216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of text-to-video temporal grounding, which
aims to identify the time interval in a video semantically relevant to a text
query. We tackle this problem using a novel regression-based model that learns
to extract a collection of mid-level features for semantic phrases in a text
query, which corresponds to important semantic entities described in the query
(e.g., actors, objects, and actions), and reflect bi-modal interactions between
the linguistic features of the query and the visual features of the video in
multiple levels. The proposed method effectively predicts the target time
interval by exploiting contextual information from local to global during
bi-modal interactions. Through in-depth ablation studies, we find out that
incorporating both local and global context in video and text interactions is
crucial to the accurate grounding. Our experiment shows that the proposed
method outperforms the state of the arts on Charades-STA and ActivityNet
Captions datasets by large margins, 7.44\% and 4.61\% points at Recall@tIoU=0.5
metric, respectively. Code is available in
https://github.com/JonghwanMun/LGI4temporalgrounding.
- Abstract(参考訳): 本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
本稿では,クエリに記述された重要な意味的エンティティ(アクター,オブジェクト,アクションなど)に対応するテキストクエリにおける意味的フレーズの中間的な特徴の集合を抽出し,クエリの言語的特徴とビデオの視覚的特徴との間のバイモーダルな相互作用を複数のレベルで反映する,新たな回帰モデルを用いてこの問題に対処する。
提案手法は,バイモーダル相互作用中に局所からグローバルへの文脈情報を活用し,目標時間間隔を効果的に予測する。
深部アブレーション研究により,映像とテキストの相互作用に局所的・グローバル的文脈を取り入れることが,正確な接地に不可欠であることが判明した。
提案手法は,Charades-STA と ActivityNet Captions のデータセットに対して,Recall@tIoU=0.5 の7.44 %,4.61 % の値でそれぞれ高い性能を示す。
コードはhttps://github.com/JonghwanMun/LGI4temporalgroundingで入手できる。
関連論文リスト
- Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval [59.990432265734384]
テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。
既存のほとんどのメソッドは、グローバルなクロスモーダル類似性のみを考慮し、ローカルの詳細を見下ろす。
本稿では,効率的なグローバルアライメント手法を設計する。
3つの標準テキスト-ビデオ検索ベンチマークで一貫した改善を達成し、明確なマージンで最先端を上回ります。
論文 参考訳(メタデータ) (2021-04-20T15:26:24Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。