論文の概要: Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training
- arxiv url: http://arxiv.org/abs/2303.00040v1
- Date: Tue, 28 Feb 2023 19:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 17:06:41.716300
- Title: Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training
- Title(参考訳): 汎用的映像モーメント検索に向けて:画像テキスト事前学習へのビジュアルダイナミックインジェクション
- Authors: Dezhao Luo, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu
- Abstract要約: 映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
- 参考スコア(独自算出の注目度): 70.83385449872495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The correlation between the vision and text is essential for video moment
retrieval (VMR), however, existing methods heavily rely on separate
pre-training feature extractors for visual and textual understanding. Without
sufficient temporal boundary annotations, it is non-trivial to learn universal
video-text alignments. In this work, we explore multi-modal correlations
derived from large-scale image-text data to facilitate generalisable VMR. To
address the limitations of image-text pre-training models on capturing the
video changes, we propose a generic method, referred to as Visual-Dynamic
Injection (VDI), to empower the model's understanding of video moments. Whilst
existing VMR methods are focusing on building temporal-aware video features,
being aware of the text descriptions about the temporal changes is also
critical but originally overlooked in pre-training by matching static images
with sentences. Therefore, we extract visual context and spatial dynamic
information from video frames and explicitly enforce their alignments with the
phrases describing video changes (e.g. verb). By doing so, the potentially
relevant visual and motion patterns in videos are encoded in the corresponding
text embeddings (injected) so to enable more accurate video-text alignments. We
conduct extensive experiments on two VMR benchmark datasets (Charades-STA and
ActivityNet-Captions) and achieve state-of-the-art performances. Especially,
VDI yields notable advantages when being tested on the out-of-distribution
splits where the testing samples involve novel scenes and vocabulary.
- Abstract(参考訳): 視覚とテキストの相関関係はビデオモーメント検索(VMR)において重要であるが,既存の手法では視覚とテキストの理解のために,個別の事前学習機能抽出器に大きく依存している。
十分な時間境界アノテーションがなければ、ユニバーサルなビデオテキストアライメントを学ぶことは簡単ではない。
本研究では,大規模画像テキストデータから派生したマルチモーダル相関を探索し,vmrの一般化を容易にする。
映像変化のキャプチャにおける画像テキスト事前学習モデルの限界に対処するため,映像モーメントの理解を促進するため,視覚動的インジェクション(vdi)と呼ばれる汎用的な手法を提案する。
既存のvmr手法は時相認識ビデオ機能の構築に重点を置いているが、時相変化に関するテキスト記述を認識することも重要であるが、元々は静的画像と文をマッチングして事前学習では見過ごされていた。
そこで,映像フレームから映像コンテキストと空間動的情報を抽出し,映像変化を表すフレーズ(例えば動詞)とのアライメントを明示的に強制する。
これにより、ビデオ中の可能性のある視覚および動きパターンを対応するテキスト埋め込み(インジェクション)にエンコードし、より正確なビデオテキストアライメントを可能にする。
我々は2つのVMRベンチマークデータセット(Charades-STAとActivityNet-Captions)で広範な実験を行い、最先端のパフォーマンスを実現した。
特に、VDIは、新規なシーンと語彙を含むテストサンプルが配布外分割でテストされる際、顕著な利点をもたらす。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。
本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。
本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文 参考訳(メタデータ) (2024-06-03T21:14:53Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。