論文の概要: Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding
- arxiv url: http://arxiv.org/abs/2103.11555v1
- Date: Mon, 22 Mar 2021 03:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:32:10.382526
- Title: Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding
- Title(参考訳): 時間文接地のための文脈認識型バイファイン位置決めネットワーク
- Authors: Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou, Yu Cheng, Wei Wei,
Zichuan Xu, Yulai Xie
- Abstract要約: 本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 61.18824806906945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of temporal sentence grounding (TSG), which
aims to identify the temporal boundary of a specific segment from an untrimmed
video by a sentence query. Previous works either compare pre-defined candidate
segments with the query and select the best one by ranking, or directly regress
the boundary timestamps of the target segment. In this paper, we propose a
novel localization framework that scores all pairs of start and end indices
within the video simultaneously with a biaffine mechanism. In particular, we
present a Context-aware Biaffine Localizing Network (CBLN) which incorporates
both local and global contexts into features of each start/end position for
biaffine-based localization. The local contexts from the adjacent frames help
distinguish the visually similar appearance, and the global contexts from the
entire video contribute to reasoning the temporal relation. Besides, we also
develop a multi-modal self-attention module to provide fine-grained
query-guided video representation for this biaffine strategy. Extensive
experiments show that our CBLN significantly outperforms state-of-the-arts on
three public datasets (ActivityNet Captions, TACoS, and Charades-STA),
demonstrating the effectiveness of the proposed localization framework.
- Abstract(参考訳): 本稿では,未編集ビデオから特定のセグメントの時間的境界を文問合せによって識別することを目的とした,時間的文接地(TSG)の問題に対処する。
以前の作業では、事前に定義された候補セグメントをクエリと比較し、ランク付けによって最適なセグメントを選択するか、あるいはターゲットセグメントの境界タイムスタンプを直接回帰する。
本稿では,ビデオ内の開始と終了のすべての指標を,バイファイン機構と同時にスコアする,新しいローカライゼーションフレームワークを提案する。
特に,ローカルとグローバルの両方のコンテキストを,バイアフィンベースのローカライズのための各開始/終了位置の特徴に組み込むコンテキストアウェアバイアフィンローカライズネットワーク(cbln)を提案する。
隣接するフレームからの局所的なコンテキストは視覚的に類似した外観を区別するのに役立ち、ビデオ全体からの全体的コンテキストは時間的関係の推論に寄与する。
さらに,このバイアフィン戦略に対して,詳細なクエリ誘導ビデオ表現を提供するマルチモーダルセルフアテンションモジュールも開発した。
大規模な実験により、我々のCBLNは3つの公開データセット(ActivityNet Captions、TACoS、Charades-STA)の最先端を著しく上回り、提案したローカライゼーションフレームワークの有効性を示した。
関連論文リスト
- Disentangle and denoise: Tackling context misalignment for video moment retrieval [16.939535169282262]
Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内のビデオモーメントを見つけることを目的としている。
本稿では,正確なモーダル・モーダル・コンテクスト・デノイング・ネットワーク(CDNet)を提案する。
論文 参考訳(メタデータ) (2024-08-14T15:00:27Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。