論文の概要: Cross-Modal Adapter for Vision-Language Retrieval
- arxiv url: http://arxiv.org/abs/2211.09623v2
- Date: Sat, 30 Aug 2025 16:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 20:08:26.062355
- Title: Cross-Modal Adapter for Vision-Language Retrieval
- Title(参考訳): 視覚言語検索のためのクロスモーダル適応器
- Authors: Haojun Jiang, Jianke Zhang, Rui Huang, Chunjiang Ge, Zanlin Ni, Shiji Song, Gao Huang,
- Abstract要約: パラメータ効率の伝達学習のためのクロスモーダル適応器を提案する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
提案手法には,(1)微調整パラメータの大部分の削減,(2)トレーニング時間の短縮,(3)事前学習パラメータの修正,という3つの特長がある。
- 参考スコア(独自算出の注目度): 60.59577149733934
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-language retrieval is an important multi-modal learning topic, where the goal is to retrieve the most relevant visual candidate for a given text query. Recently, pre-trained models, e.g., CLIP, show great potential on retrieval tasks. However, as pre-trained models are scaling up, fully fine-tuning them on donwstream retrieval datasets has a high risk of overfitting. Moreover, in practice, it would be costly to train and store a large model for each task. To overcome the above issues, we present a novel Cross-Modal Adapter for parameter-efficient transfer learning. Inspired by adapter-based methods, we adjust the pre-trained model with a few parameterization layers. However, there are two notable differences. First, our method is designed for the multi-modal domain. Secondly, it allows encoder-level implicit cross-modal interactions between vision and language encoders. Although surprisingly simple, our approach has three notable benefits: (1) reduces the vast majority of fine-tuned parameters, (2) saves training time, and (3) allows all the pre-trained parameters to be fixed, enabling the pre-trained model to be shared across datasets. Extensive experiments demonstrate that, without bells and whistles, our approach outperforms adapter-based methods on image-text retrieval datasets (MSCOCO, Flickr30K) and video-text retrieval datasets (MSR-VTT, DiDeMo, and ActivityNet).
- Abstract(参考訳): 視覚言語検索は重要なマルチモーダル学習トピックであり、その目的は、与えられたテキストクエリの最も関連性の高い視覚的候補を検索することである。
近年,CLIP,CLIPなどの事前学習モデルでは,検索タスクに大きな可能性を示している。
しかしながら、事前訓練されたモデルがスケールアップしているため、ドナストリーム検索データセットでそれらを完全に微調整することは、過度に適合するリスクが高い。
さらに、実際には、タスク毎に大きなモデルをトレーニングし、保存するのにコストがかかる。
上記の課題を克服するために,パラメータ効率の伝達学習のためのクロスモーダル適応器を提案する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
しかし、2つの顕著な違いがある。
まず,本手法はマルチモーダル領域向けに設計されている。
第二に、視覚と言語エンコーダ間のエンコーダレベルの暗黙的な相互モーダル相互作用を可能にする。
1)微調整されたパラメータの大部分を削減し、(2)トレーニング時間を短縮し、(3)事前トレーニングされたパラメータをすべて修正し、事前トレーニングされたモデルをデータセット間で共有できるようにする。
画像テキスト検索データセット(MSCOCO,Flickr30K)とビデオテキスト検索データセット(MSR-VTT,DiDeMo,ActivityNet)では,ベルやホイッスルがなければアダプタベースの手法よりも優れていた。
関連論文リスト
- CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction Datasets [0.9642500063568188]
本稿では,CM3Tと呼ばれるクロスラーニングのための新しいモデルに依存しないプラグインアーキテクチャを提案する。
本稿では,トランスファー学習用マルチヘッド・ビジョン・アダプタとマルチモーダル学習用クロスアテンション・アダプタの2つのアダプタ・ブロックを紹介する。
ビデオ入力を処理するバックボーンと比較してトレーニング可能なパラメータは12.8%に過ぎず、最先端よりも同等で、さらに優れた結果が得られる。
論文 参考訳(メタデータ) (2025-01-06T19:01:10Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts [14.610244867640471]
最近の視覚言語モデルは大規模事前訓練モデルによって駆動される。
本稿では,過剰適合,破滅的忘れ,視覚と言語間の相互的ギャップといった課題に対処するパラメータ効率の手法を提案する。
いくつかのビデオ質問応答ベンチマークの実験は、性能とパラメータ効率の点で、我々のアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2023-09-27T18:00:09Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval [60.454321238910474]
最先端のビデオテキスト検索手法は、通常、特定のデータセット上で事前訓練されたモデルを完全に微調整する。
本稿では,事前学習モデルを用いてパラメータ効率の高いVTRを実現する先駆的手法を提案する。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-19T03:42:56Z) - HADA: A Graph-based Amalgamation Framework in Image-text Retrieval [2.3013879633693266]
本稿では,事前学習したモデルを組み合わせることで,より優れた結果が得られる,コンパクトなグラフベースフレームワークHADAを提案する。
Flickr30kデータセットの評価指標から,HADAはベースライン性能を3.6%以上向上できることを示した。
論文 参考訳(メタデータ) (2023-01-11T22:25:20Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。