論文の概要: RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval
- arxiv url: http://arxiv.org/abs/2210.06881v1
- Date: Thu, 13 Oct 2022 10:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:31:35.103076
- Title: RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval
- Title(参考訳): RaP: テキストビデオ検索のための冗長性対応ビデオ言語事前学習
- Authors: Xing Wu, Chaochen Gao, Zijia Lin, Zhongyuan Wang, Jizhong Han, Songlin
Hu
- Abstract要約: 冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 61.77760317554826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video language pre-training methods have mainly adopted sparse sampling
techniques to alleviate the temporal redundancy of videos. Though effective,
sparse sampling still suffers inter-modal redundancy: visual redundancy and
textual redundancy. Compared with highly generalized text, sparsely sampled
frames usually contain text-independent portions, called visual redundancy.
Sparse sampling is also likely to miss important frames corresponding to some
text portions, resulting in textual redundancy. Inter-modal redundancy leads to
a mismatch of video and text information, hindering the model from better
learning the shared semantics across modalities. To alleviate it, we propose
Redundancy-aware Video-language Pre-training. We design a redundancy
measurement of video patches and text tokens by calculating the cross-modal
minimum dis-similarity. Then, we penalize the highredundant video patches and
text tokens through a proposed redundancy-aware contrastive learning. We
evaluate our method on four benchmark datasets, MSRVTT, MSVD, DiDeMo, and
LSMDC, achieving a significant improvement over the previous stateof-the-art
results. Our code are available at
https://github.com/caskcsg/VLP/tree/main/RaP.
- Abstract(参考訳): ビデオ言語事前学習法は主に、ビデオの時間的冗長性を軽減するためにスパースサンプリング技術を採用している。
有効ではあるが、スパースサンプリングは、視覚的冗長性とテキスト的冗長性という、モーダル間冗長性に苦しむ。
高度に一般化されたテキストと比較して、スパースサンプリングされたフレームは通常、視覚的冗長性と呼ばれるテキストに依存しない部分を含む。
スパースサンプリングはまた、いくつかのテキスト部分に対応する重要なフレームを見逃すことがあり、結果としてテキストの冗長性が生じる。
モダリティ間の冗長性は、ビデオとテキスト情報のミスマッチを招き、モダリティ間の共有セマンティクスの学習を改善することを妨げます。
そこで本稿では,冗長性を考慮したビデオ言語事前学習を提案する。
クロスモーダル最小不一致を計算し,ビデオパッチとテキストトークンの冗長性を測定する。
次に,提案する冗長性を考慮したコントラスト学習により,高冗長度ビデオパッチとテキストトークンを罰する。
提案手法は,MSRVTT,MSVD,DiDeMo,LSMDCの4つのベンチマークデータセットを用いて評価し,従来の結果よりも大幅に改善された。
私たちのコードはhttps://github.com/caskcsg/VLP/tree/main/RaPで利用可能です。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Video-Text Retrieval by Supervised Sparse Multi-Grained Learning [22.17732989393653]
本稿では,ビデオとテキスト間で共有されるスパース空間を学習し,ビデオテキスト検索のための新しいスパース学習フレームワークであるS3MAを提案する。
テキストデータを手元に置き、提案した類似性とアライメント損失を用いて共有スパース空間を教師付きで学習し、更新する。
学習された共有空間と多粒度類似性から、ビデオテキスト検索ベンチマークによる実験により、既存の手法よりもS3MAの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-02-19T04:03:22Z) - Masked Contrastive Pre-Training for Efficient Video-Text Retrieval [37.05164804180039]
我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
論文 参考訳(メタデータ) (2022-12-02T05:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。