論文の概要: Weak Supervision and Referring Attention for Temporal-Textual
Association Learning
- arxiv url: http://arxiv.org/abs/2006.11747v2
- Date: Sat, 27 Jun 2020 08:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:25:32.099208
- Title: Weak Supervision and Referring Attention for Temporal-Textual
Association Learning
- Title(参考訳): 時間的テキスト・アソシエーション学習のための弱視と参照注意
- Authors: Zhiyuan Fang, Shu Kong, Zhe Wang, Charless Fowlkes, Yezhou Yang
- Abstract要約: 時間とテクストの関連性(WSRA)を学習するための弱スーパービジョンの代替案を提案する。
弱い監督は、単にビデオレベルでのテキスト表現であり、このビデオが関連するフレームを含んでいることを示している。
参照注意は、フレーム上の与えられたクエリを時間的にグラウンド化するためのスコアリング機能として機能する、我々の設計メカニズムである。
言語による時間的接地のための広範囲な実験を通じて、WSRAを検証し、最先端の弱い教師付き手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 35.469984595398905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A system capturing the association between video frames and textual queries
offer great potential for better video analysis. However, training such a
system in a fully supervised way inevitably demands a meticulously curated
video dataset with temporal-textual annotations. Therefore we provide a
Weak-Supervised alternative with our proposed Referring Attention mechanism to
learn temporal-textual association (dubbed WSRA). The weak supervision is
simply a textual expression (e.g., short phrases or sentences) at video level,
indicating this video contains relevant frames. The referring attention is our
designed mechanism acting as a scoring function for grounding the given queries
over frames temporally. It consists of multiple novel losses and sampling
strategies for better training. The principle in our designed mechanism is to
fully exploit 1) the weak supervision by considering informative and
discriminative cues from intra-video segments anchored with the textual query,
2) multiple queries compared to the single video, and 3) cross-video visual
similarities. We validate our WSRA through extensive experiments for temporally
grounding by languages, demonstrating that it outperforms the state-of-the-art
weakly-supervised methods notably.
- Abstract(参考訳): ビデオフレームとテキストクエリの関係をキャプチャするシステムは、より良いビデオ分析に大きな可能性を秘めている。
しかし、このようなシステムを完全に教師された方法でトレーニングするには、時間-テクスチュアルなアノテーションで慎重にキュレートされたビデオデータセットが必要である。
そこで本稿では,時間的テクスト関連性(WSRA)を学習するための参照注意機構を提案する。
弱い監督は、単にビデオレベルでのテキスト表現(例えば、短いフレーズや文)であり、このビデオが関連するフレームを含んでいることを示す。
参照注意は,与えられた問合せをフレーム上で時間的に接地するためのスコアリング機能として機能する機構である。
複数の新しい損失とより良い訓練のためのサンプリング戦略で構成されている。
私たちの設計したメカニズムの原理は
1)テキストクエリをアンカーとしたビデオ内セグメントからの情報的および判別的手がかりを考慮した弱い監督
2)単一のビデオと比較して複数のクエリ、そして
3)クロスビデオ視覚類似性。
言語による時間的接地のための広範囲な実験を通じて、WSRAを検証し、最先端の弱い教師付き手法よりも優れていることを示す。
関連論文リスト
- Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。
完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。
我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-20T11:59:17Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。