論文の概要: Weak Supervision and Referring Attention for Temporal-Textual
Association Learning
- arxiv url: http://arxiv.org/abs/2006.11747v2
- Date: Sat, 27 Jun 2020 08:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:25:32.099208
- Title: Weak Supervision and Referring Attention for Temporal-Textual
Association Learning
- Title(参考訳): 時間的テキスト・アソシエーション学習のための弱視と参照注意
- Authors: Zhiyuan Fang, Shu Kong, Zhe Wang, Charless Fowlkes, Yezhou Yang
- Abstract要約: 時間とテクストの関連性(WSRA)を学習するための弱スーパービジョンの代替案を提案する。
弱い監督は、単にビデオレベルでのテキスト表現であり、このビデオが関連するフレームを含んでいることを示している。
参照注意は、フレーム上の与えられたクエリを時間的にグラウンド化するためのスコアリング機能として機能する、我々の設計メカニズムである。
言語による時間的接地のための広範囲な実験を通じて、WSRAを検証し、最先端の弱い教師付き手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 35.469984595398905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A system capturing the association between video frames and textual queries
offer great potential for better video analysis. However, training such a
system in a fully supervised way inevitably demands a meticulously curated
video dataset with temporal-textual annotations. Therefore we provide a
Weak-Supervised alternative with our proposed Referring Attention mechanism to
learn temporal-textual association (dubbed WSRA). The weak supervision is
simply a textual expression (e.g., short phrases or sentences) at video level,
indicating this video contains relevant frames. The referring attention is our
designed mechanism acting as a scoring function for grounding the given queries
over frames temporally. It consists of multiple novel losses and sampling
strategies for better training. The principle in our designed mechanism is to
fully exploit 1) the weak supervision by considering informative and
discriminative cues from intra-video segments anchored with the textual query,
2) multiple queries compared to the single video, and 3) cross-video visual
similarities. We validate our WSRA through extensive experiments for temporally
grounding by languages, demonstrating that it outperforms the state-of-the-art
weakly-supervised methods notably.
- Abstract(参考訳): ビデオフレームとテキストクエリの関係をキャプチャするシステムは、より良いビデオ分析に大きな可能性を秘めている。
しかし、このようなシステムを完全に教師された方法でトレーニングするには、時間-テクスチュアルなアノテーションで慎重にキュレートされたビデオデータセットが必要である。
そこで本稿では,時間的テクスト関連性(WSRA)を学習するための参照注意機構を提案する。
弱い監督は、単にビデオレベルでのテキスト表現(例えば、短いフレーズや文)であり、このビデオが関連するフレームを含んでいることを示す。
参照注意は,与えられた問合せをフレーム上で時間的に接地するためのスコアリング機能として機能する機構である。
複数の新しい損失とより良い訓練のためのサンプリング戦略で構成されている。
私たちの設計したメカニズムの原理は
1)テキストクエリをアンカーとしたビデオ内セグメントからの情報的および判別的手がかりを考慮した弱い監督
2)単一のビデオと比較して複数のクエリ、そして
3)クロスビデオ視覚類似性。
言語による時間的接地のための広範囲な実験を通じて、WSRAを検証し、最先端の弱い教師付き手法よりも優れていることを示す。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。