論文の概要: Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding
- arxiv url: http://arxiv.org/abs/2210.11933v1
- Date: Fri, 21 Oct 2022 13:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:21:17.362532
- Title: Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding
- Title(参考訳): 弱教師付き時間言語接地のための細粒度意味アライメントネットワーク
- Authors: Yuechen Wang, Wengang Zhou, Houqiang Li
- Abstract要約: 時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
- 参考スコア(独自算出の注目度): 148.46348699343991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal language grounding (TLG) aims to localize a video segment in an
untrimmed video based on a natural language description. To alleviate the
expensive cost of manual annotations for temporal boundary labels, we are
dedicated to the weakly supervised setting, where only video-level descriptions
are provided for training. Most of the existing weakly supervised methods
generate a candidate segment set and learn cross-modal alignment through a
MIL-based framework. However, the temporal structure of the video as well as
the complicated semantics in the sentence are lost during the learning. In this
work, we propose a novel candidate-free framework: Fine-grained Semantic
Alignment Network (FSAN), for weakly supervised TLG. Instead of view the
sentence and candidate moments as a whole, FSAN learns token-by-clip
cross-modal semantic alignment by an iterative cross-modal interaction module,
generates a fine-grained cross-modal semantic alignment map, and performs
grounding directly on top of the map. Extensive experiments are conducted on
two widely-used benchmarks: ActivityNet-Captions, and DiDeMo, where our FSAN
achieves state-of-the-art performance.
- Abstract(参考訳): テンポラル言語グラウンドディング(TLG)は、自然言語記述に基づいてビデオセグメントを非トリミングビデオにローカライズすることを目的としている。
時間的境界ラベルに対する手動アノテーションのコストを緩和するために,ビデオレベルの記述のみをトレーニング用に提供する弱い教師付き設定に特化している。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
しかし、学習中に、映像の時間的構造と文の複雑な意味が失われる。
本稿では,弱い教師付きtlgのための新しい候補フリー・フレームワーク,きめ細粒度セマンティックアライメント・ネットワーク(fsan)を提案する。
FSANは、文と候補モーメントを全体として見る代わりに、反復的な相互モーダル相互作用モジュールによってトークン・バイ・クリップなセマンティックアライメントを学び、きめ細かいクロスモーダルなセマンティックアライメントマップを生成し、マップの上に接地する。
FSANが最先端のパフォーマンスを達成するために,ActivityNet-CaptionsとDiDeMoという,広く使用されている2つのベンチマークで大規模な実験が行われた。
関連論文リスト
- Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。