論文の概要: DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2506.08887v1
- Date: Tue, 10 Jun 2025 15:16:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.667243
- Title: DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
- Title(参考訳): DiscoVLA:パラメータ効率の良いビデオテキスト検索のための視覚・言語・アライメントの離散化
- Authors: Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding,
- Abstract要約: 視覚、言語、アライメントという3つの重要な相違点がイメージレベルからビデオレベルへ移行する。
視覚・言語・アライメントにおける不一致低減(DiscoVLA)を提案し,同時に3つの相違を緩和する。
具体的には、画像レベルの特徴と映像レベルの特徴を統合するために、画像-映像特徴融合を導入し、視覚と言語の違いを効果的に対処する。
本稿では,アライメントの差を軽減するために,画像レベルのアライメント知識を活用して映像レベルのアライメントを強化する画像対ビデオアライメント蒸留法を提案する。
- 参考スコア(独自算出の注目度): 71.24147642498876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The parameter-efficient adaptation of the image-text pretraining model CLIP for video-text retrieval is a prominent area of research. While CLIP is focused on image-level vision-language matching, video-text retrieval demands comprehensive understanding at the video level. Three key discrepancies emerge in the transfer from image-level to video-level: vision, language, and alignment. However, existing methods mainly focus on vision while neglecting language and alignment. In this paper, we propose Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all three discrepancies. Specifically, we introduce Image-Video Features Fusion to integrate image-level and video-level features, effectively tackling both vision and language discrepancies. Additionally, we generate pseudo image captions to learn fine-grained image-level alignment. To mitigate alignment discrepancies, we propose Image-to-Video Alignment Distillation, which leverages image-level alignment knowledge to enhance video-level alignment. Extensive experiments demonstrate the superiority of our DiscoVLA. In particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is available at https://github.com/LunarShen/DsicoVLA.
- Abstract(参考訳): ビデオテキスト検索のための画像テキスト事前学習モデルのCLIPのパラメータ効率適応は、顕著な研究領域である。
CLIPは画像レベルの視覚言語マッチングに重点を置いているが、ビデオテキスト検索では、ビデオレベルでの包括的な理解が必要である。
視覚、言語、アライメントという3つの重要な相違点がイメージレベルからビデオレベルへ移行する。
しかし、既存の手法は主に言語やアライメントを無視しながら視覚に焦点を当てている。
本稿では,3つの相違点を同時に緩和するDiscoVLA(Disdisrepancy Reduction in Vision, Language, and Alignment)を提案する。
具体的には、画像レベルの特徴と映像レベルの特徴を統合するために、画像-映像特徴融合を導入し、視覚と言語の違いを効果的に対処する。
さらに,微粒な画像レベルのアライメントを学習するために,擬似画像キャプションを生成する。
本稿では,アライメントの差を軽減するために,画像レベルのアライメント知識を活用して映像レベルのアライメントを強化する画像対ビデオアライメント蒸留法を提案する。
大規模な実験は、DiscoVLAの優位性を実証している。
特に、CLIP (ViT-B/16) を用いた MSRVTT では、DiscoVLA は R@1 の1.5% で、最終スコアは 50.5% R@1 に達した。
コードはhttps://github.com/LunarShen/DsicoVLAで公開されている。
関連論文リスト
- OmniCaptioner: One Captioner to Rule Them All [33.98387155732322]
細かなテキスト記述を生成するための多目的視覚キャプションフレームワークを提案する。
低レベルのピクセル情報を意味的にリッチなテキスト表現に変換することで、われわれのフレームワークは視覚とテキストのモダリティのギャップを埋める。
OmniCaptionerの汎用性と適応性は、言語と視覚的モダリティのギャップを埋めるための新たな視点を提供することができると信じています。
論文 参考訳(メタデータ) (2025-04-09T17:58:58Z) - The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Contrastive Vision-Language Alignment Makes Efficient Instruction
Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。
既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。
比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文 参考訳(メタデータ) (2023-11-29T03:29:46Z) - Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z) - HANet: Hierarchical Alignment Networks for Video-Text Retrieval [15.91922397215452]
ビデオテキスト検索は視覚言語理解において重要な課題である。
現在のほとんどの研究は、ビデオレベルの埋め込みとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を単純に測定している。
本稿では,階層型アライメントネットワーク(HANet)を提案する。
論文 参考訳(メタデータ) (2021-07-26T09:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。