論文の概要: Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos
- arxiv url: http://arxiv.org/abs/2003.07048v1
- Date: Mon, 16 Mar 2020 07:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:33:44.443249
- Title: Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos
- Title(参考訳): 映像中のテキストクェリのグラウンド化のための弱教師付きマルチレベルアテンショナル再構成ネットワーク
- Authors: Yijun Song, Jingwen Wang, Lin Ma, Zhou Yu, Jun Yu
- Abstract要約: ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
- 参考スコア(独自算出の注目度): 73.4504252917816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of temporally grounding textual queries in videos is to localize one
video segment that semantically corresponds to the given query. Most of the
existing approaches rely on segment-sentence pairs (temporal annotations) for
training, which are usually unavailable in real-world scenarios. In this work
we present an effective weakly-supervised model, named as Multi-Level
Attentional Reconstruction Network (MARN), which only relies on video-sentence
pairs during the training stage. The proposed method leverages the idea of
attentional reconstruction and directly scores the candidate segments with the
learnt proposal-level attentions. Moreover, another branch learning clip-level
attention is exploited to refine the proposals at both the training and testing
stage. We develop a novel proposal sampling mechanism to leverage
intra-proposal information for learning better proposal representation and
adopt 2D convolution to exploit inter-proposal clues for learning reliable
attention map. Experiments on Charades-STA and ActivityNet-Captions datasets
demonstrate the superiority of our MARN over the existing weakly-supervised
methods.
- Abstract(参考訳): ビデオ内のテキストクエリを一時的に接地するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
本研究では,学習段階における映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)という,効果的な弱教師付きモデルを提案する。
提案手法では,注意再構築の考え方を活用し,学習した提案レベルでの注意で候補セグメントを直接スコア付けする。
さらに、別のブランチ学習クリップレベルの注意が、トレーニングとテストの段階で提案を洗練するために利用される。
提案手法は,提案表現の学習にプロモーザ内情報を活用するための新しい提案手法を開発し,プロポーザ間手がかりを利用して信頼性の高い注意マップを学習する。
Charades-STAとActivityNet-Captionsデータセットの実験は、既存の弱教師付き手法よりもMARNの方が優れていることを示している。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。