論文の概要: Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos
- arxiv url: http://arxiv.org/abs/2009.08614v1
- Date: Fri, 18 Sep 2020 03:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:08:02.367102
- Title: Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos
- Title(参考訳): 映像中の自然言語の時間的接地を弱めに監督する強化学習
- Authors: Jie Wu, Guanbin Li, Xiaoguang Han, Liang Lin
- Abstract要約: 我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 134.78406021194985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal grounding of natural language in untrimmed videos is a fundamental
yet challenging multimedia task facilitating cross-media visual content
retrieval. We focus on the weakly supervised setting of this task that merely
accesses to coarse video-level language description annotation without temporal
boundary, which is more consistent with reality as such weak labels are more
readily available in practice. In this paper, we propose a \emph{Boundary
Adaptive Refinement} (BAR) framework that resorts to reinforcement learning
(RL) to guide the process of progressively refining the temporal boundary. To
the best of our knowledge, we offer the first attempt to extend RL to temporal
localization task with weak supervision. As it is non-trivial to obtain a
straightforward reward function in the absence of pairwise granular
boundary-query annotations, a cross-modal alignment evaluator is crafted to
measure the alignment degree of segment-query pair to provide tailor-designed
rewards. This refinement scheme completely abandons traditional sliding window
based solution pattern and contributes to acquiring more efficient,
boundary-flexible and content-aware grounding results. Extensive experiments on
two public benchmarks Charades-STA and ActivityNet demonstrate that BAR
outperforms the state-of-the-art weakly-supervised method and even beats some
competitive fully-supervised ones.
- Abstract(参考訳): 非トリミングビデオにおける自然言語の時間的基盤化は、マルチメディアの基本的な課題でありながら、メディア間のビジュアルコンテンツ検索を容易にする。
我々は、時間的境界のない粗いビデオレベルの言語記述アノテーションに単にアクセスするだけの、このタスクの弱い教師付き設定に焦点をあてる。
本稿では,強化学習(RL)を活用して時間境界を段階的に洗練する過程をガイドする,emph{Boundary Adaptive Refinement} (BAR) フレームワークを提案する。
我々の知る限りでは、rlを時間的局所化タスクに拡張する最初の試みを、弱い監督で提供します。
一対の粒界問合せアノテーションがない場合、直接的な報酬関数を得るのは自明ではないので、セグメント問合せ対のアライメント度を測定するためにクロスモーダルアライメント評価器を製作し、テーラー設計の報酬を提供する。
この改良は従来のスライディングウィンドウベースのソリューションパターンを完全に放棄し、より効率的で、境界フレキシブルで、コンテンツ対応の接地結果を得るのに役立つ。
Charades-STAとActivityNetの2つの公開ベンチマークに関する大規模な実験は、BARが最先端の弱い教師付き手法よりも優れており、競争力のある完全な教師付きベンチマークよりも優れていることを実証している。
関連論文リスト
- Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021 [33.840281113206444]
本報告では,2021 HACS 時空間行動ローカライゼーションチャレンジの提出に使用したソリューションの概要について述べる。
我々は、TCANet(Temporal Context Aggregation Network)を用いて、高品質なアクション提案を生成する。
また、トリミングされたビデオから未トリミングされたビデオに知識を移すための追加モジュールも採用しています。
提案手法は, 教師付きおよび弱教師付き時間的行動局所化トラックを用いて, 39.91 と 29.78 の平均 mAP をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-07-27T06:18:21Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。