Fugu-MT 論文翻訳(概要): Weakly Supervised Temporal Adjacent Network for Language Grounding

論文の概要: Weakly Supervised Temporal Adjacent Network for Language Grounding

arxiv url: http://arxiv.org/abs/2106.16136v1
Date: Wed, 30 Jun 2021 15:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-01 15:29:09.963571
Title: Weakly Supervised Temporal Adjacent Network for Language Grounding
Title（参考訳）: 言語接地のための弱教師付き時間隣接ネットワーク
Authors: Yuechen Wang, Jiajun Deng, Wengang Zhou, and Houqiang Li
Abstract要約: 本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。 WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。 MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
参考スコア（独自算出の注目度）: 96.09453060585497
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal language grounding (TLG) is a fundamental and challenging problem for vision and language understanding. Existing methods mainly focus on fully supervised setting with temporal boundary labels for training, which, however, suffers expensive cost of annotation. In this work, we are dedicated to weakly supervised TLG, where multiple description sentences are given to an untrimmed video without temporal boundary labels. In this task, it is critical to learn a strong cross-modal semantic alignment between sentence semantics and visual content. To this end, we introduce a novel weakly supervised temporal adjacent network (WSTAN) for temporal language grounding. Specifically, WSTAN learns cross-modal semantic alignment by exploiting temporal adjacent network in a multiple instance learning (MIL) paradigm, with a whole description paragraph as input. Moreover, we integrate a complementary branch into the framework, which explicitly refines the predictions with pseudo supervision from the MIL stage. An additional self-discriminating loss is devised on both the MIL branch and the complementary branch, aiming to enhance semantic discrimination by self-supervising. Extensive experiments are conducted on three widely used benchmark datasets, \emph{i.e.}, ActivityNet-Captions, Charades-STA, and DiDeMo, and the results demonstrate the effectiveness of our approach.
Abstract（参考訳）: 時間的言語基盤(TLG)は、視覚と言語理解の基本的な問題である。既存の手法は主にトレーニングのための時間境界ラベル付き完全教師付き設定に重点を置いているが、アノテーションのコストは高くつく。本研究では,時間境界ラベルのないビデオに複数の記述文を付与する,弱い教師付きTLGに焦点をあてる。この課題では、文の意味論と視覚的内容との強い相互意味的アライメントを学習することが重要である。この目的のために、時間的言語接地のための弱教師付き時間的隣接ネットワーク(WSTAN)を導入する。具体的には、WSTANは、複数のインスタンス学習(MIL)パラダイムにおける時間的隣接ネットワークを利用して、全記述節を入力として、モーダル間セマンティックアライメントを学習する。さらに,このフレームワークに補完的分岐を組み込むことにより,MIL段階からの疑似監督による予測を明確化する。 milブランチと補完ブランチの両方で追加の自己識別損失が考案され、自己監視による意味的識別を強化する。大規模な実験は、広く使われている3つのベンチマークデータセットである \emph{i.e。この結果,ActivityNet-Captions,Charades-STA,DiDeMoが有効性を示した。

関連論文リスト

Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文参考訳（メタデータ） (2025-03-22T05:04:12Z)
Mitigating Semantic Leakage in Cross-lingual Embeddings via Orthogonality Constraint [6.880579537300643]
現在の不整合表現学習法はセマンティックリークに悩まされている。我々は,新しい学習目標orthogonAlity Constraint LEarning(ORACLE)を提案する。 ORACLEはクラス内のクラスタリングとクラス間の分離という2つのコンポーネントの上に構築されている。 ORACLE目標を用いたトレーニングは,意味的漏洩を効果的に低減し,埋め込み空間内の意味的アライメントを高めることを実証する。
論文参考訳（メタデータ） (2024-09-24T02:01:52Z)
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文参考訳（メタデータ） (2024-03-18T04:30:31Z)
What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文参考訳（メタデータ） (2023-03-29T19:38:23Z)
Fine-grained Semantic Alignment Network for Weakly Supervised Temporal Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文参考訳（メタデータ） (2022-10-21T13:10:27Z)
Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-23T16:29:16Z)
Reinforcement Learning for Weakly Supervised Temporal Grounding of Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-18T03:32:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。