論文の概要: Weakly Supervised Temporal Adjacent Network for Language Grounding
- arxiv url: http://arxiv.org/abs/2106.16136v1
- Date: Wed, 30 Jun 2021 15:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:29:09.963571
- Title: Weakly Supervised Temporal Adjacent Network for Language Grounding
- Title(参考訳): 言語接地のための弱教師付き時間隣接ネットワーク
- Authors: Yuechen Wang, Jiajun Deng, Wengang Zhou, and Houqiang Li
- Abstract要約: 本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
- 参考スコア(独自算出の注目度): 96.09453060585497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal language grounding (TLG) is a fundamental and challenging problem
for vision and language understanding. Existing methods mainly focus on fully
supervised setting with temporal boundary labels for training, which, however,
suffers expensive cost of annotation. In this work, we are dedicated to weakly
supervised TLG, where multiple description sentences are given to an untrimmed
video without temporal boundary labels. In this task, it is critical to learn a
strong cross-modal semantic alignment between sentence semantics and visual
content. To this end, we introduce a novel weakly supervised temporal adjacent
network (WSTAN) for temporal language grounding. Specifically, WSTAN learns
cross-modal semantic alignment by exploiting temporal adjacent network in a
multiple instance learning (MIL) paradigm, with a whole description paragraph
as input. Moreover, we integrate a complementary branch into the framework,
which explicitly refines the predictions with pseudo supervision from the MIL
stage. An additional self-discriminating loss is devised on both the MIL branch
and the complementary branch, aiming to enhance semantic discrimination by
self-supervising. Extensive experiments are conducted on three widely used
benchmark datasets, \emph{i.e.}, ActivityNet-Captions, Charades-STA, and
DiDeMo, and the results demonstrate the effectiveness of our approach.
- Abstract(参考訳): 時間的言語基盤(TLG)は、視覚と言語理解の基本的な問題である。
既存の手法は主にトレーニングのための時間境界ラベル付き完全教師付き設定に重点を置いているが、アノテーションのコストは高くつく。
本研究では,時間境界ラベルのないビデオに複数の記述文を付与する,弱い教師付きTLGに焦点をあてる。
この課題では、文の意味論と視覚的内容との強い相互意味的アライメントを学習することが重要である。
この目的のために、時間的言語接地のための弱教師付き時間的隣接ネットワーク(WSTAN)を導入する。
具体的には、WSTANは、複数のインスタンス学習(MIL)パラダイムにおける時間的隣接ネットワークを利用して、全記述節を入力として、モーダル間セマンティックアライメントを学習する。
さらに,このフレームワークに補完的分岐を組み込むことにより,MIL段階からの疑似監督による予測を明確化する。
milブランチと補完ブランチの両方で追加の自己識別損失が考案され、自己監視による意味的識別を強化する。
大規模な実験は、広く使われている3つのベンチマークデータセットである \emph{i.e。
この結果,ActivityNet-Captions,Charades-STA,DiDeMoが有効性を示した。
関連論文リスト
- Mitigating Semantic Leakage in Cross-lingual Embeddings via Orthogonality Constraint [6.880579537300643]
現在の不整合表現学習法はセマンティックリークに悩まされている。
我々は,新しい学習目標orthogonAlity Constraint LEarning(ORACLE)を提案する。
ORACLEはクラス内のクラスタリングとクラス間の分離という2つのコンポーネントの上に構築されている。
ORACLE目標を用いたトレーニングは,意味的漏洩を効果的に低減し,埋め込み空間内の意味的アライメントを高めることを実証する。
論文 参考訳(メタデータ) (2024-09-24T02:01:52Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。