論文の概要: Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos
- arxiv url: http://arxiv.org/abs/2003.07048v1
- Date: Mon, 16 Mar 2020 07:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:33:44.443249
- Title: Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos
- Title(参考訳): 映像中のテキストクェリのグラウンド化のための弱教師付きマルチレベルアテンショナル再構成ネットワーク
- Authors: Yijun Song, Jingwen Wang, Lin Ma, Zhou Yu, Jun Yu
- Abstract要約: ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
- 参考スコア(独自算出の注目度): 73.4504252917816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of temporally grounding textual queries in videos is to localize one
video segment that semantically corresponds to the given query. Most of the
existing approaches rely on segment-sentence pairs (temporal annotations) for
training, which are usually unavailable in real-world scenarios. In this work
we present an effective weakly-supervised model, named as Multi-Level
Attentional Reconstruction Network (MARN), which only relies on video-sentence
pairs during the training stage. The proposed method leverages the idea of
attentional reconstruction and directly scores the candidate segments with the
learnt proposal-level attentions. Moreover, another branch learning clip-level
attention is exploited to refine the proposals at both the training and testing
stage. We develop a novel proposal sampling mechanism to leverage
intra-proposal information for learning better proposal representation and
adopt 2D convolution to exploit inter-proposal clues for learning reliable
attention map. Experiments on Charades-STA and ActivityNet-Captions datasets
demonstrate the superiority of our MARN over the existing weakly-supervised
methods.
- Abstract(参考訳): ビデオ内のテキストクエリを一時的に接地するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
本研究では,学習段階における映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)という,効果的な弱教師付きモデルを提案する。
提案手法では,注意再構築の考え方を活用し,学習した提案レベルでの注意で候補セグメントを直接スコア付けする。
さらに、別のブランチ学習クリップレベルの注意が、トレーニングとテストの段階で提案を洗練するために利用される。
提案手法は,提案表現の学習にプロモーザ内情報を活用するための新しい提案手法を開発し,プロポーザ間手がかりを利用して信頼性の高い注意マップを学習する。
Charades-STAとActivityNet-Captionsデータセットの実験は、既存の弱教師付き手法よりもMARNの方が優れていることを示している。
関連論文リスト
- Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in
Untrimmed Multi-Action Videos from Narrated Instructions [41.092918691505425]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。