論文の概要: Cross-Modal Adapter for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2211.09623v1
- Date: Thu, 17 Nov 2022 16:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 15:09:27.721555
- Title: Cross-Modal Adapter for Text-Video Retrieval
- Title(参考訳): テキストビデオ検索用クロスモーダルアダプタ
- Authors: Haojun Jiang, Jianke Zhang, Rui Huang, Chunjiang Ge, Zanlin Ni, Jiwen
Lu, Jie Zhou, Shiji Song, Gao Huang
- Abstract要約: 我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 91.9575196703281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-video retrieval is an important multi-modal learning task, where the
goal is to retrieve the most relevant video for a given text query. Recently,
pre-trained models, e.g., CLIP, show great potential on this task. However, as
pre-trained models are scaling up, fully fine-tuning them on text-video
retrieval datasets has a high risk of overfitting. Moreover, in practice, it
would be costly to train and store a large model for each task. To overcome the
above issues, we present a novel $\textbf{Cross-Modal Adapter}$ for
parameter-efficient fine-tuning. Inspired by adapter-based methods, we adjust
the pre-trained model with a few parameterization layers. However, there are
two notable differences. First, our method is designed for the multi-modal
domain. Secondly, it allows early cross-modal interactions between CLIP's two
encoders. Although surprisingly simple, our approach has three notable
benefits: (1) reduces $\textbf{99.6}\%$ of fine-tuned parameters, and
alleviates the problem of overfitting, (2) saves approximately 30% of training
time, and (3) allows all the pre-trained parameters to be fixed, enabling the
pre-trained model to be shared across datasets. Extensive experiments
demonstrate that, without bells and whistles, it achieves superior or
comparable performance compared to fully fine-tuned methods on MSR-VTT, MSVD,
VATEX, ActivityNet, and DiDeMo datasets. The code will be available at
\url{https://github.com/LeapLabTHU/Cross-Modal-Adapter}.
- Abstract(参考訳): テキストビデオ検索は重要なマルチモーダル学習タスクであり、与えられたテキストクエリに対して最も関連性の高いビデオを取得することを目的としている。
近年、CLIPのような事前訓練されたモデルは、このタスクに大きな可能性を示している。
しかし、事前訓練されたモデルがスケールアップしているため、テキストビデオ検索データセットを十分に微調整することは、過度に適合するリスクが高い。
さらに、実際には、タスクごとに大きなモデルをトレーニングし、保存するのにコストがかかる。
上記の問題を克服するために、パラメータ効率の良い微調整のための新しい$\textbf{Cross-Modal Adapter}$を示す。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化層で事前学習モデルを調整する。
しかし、2つの顕著な違いがある。
まず,本手法はマルチモーダル領域向けに設計されている。
第二に、CLIPの2つのエンコーダ間の初期の相互モーダル相互作用を可能にする。
驚くほど単純ではあるが、このアプローチには3つの注目すべきメリットがある。(1)$\textbf{99.6}\%の微調整パラメータを削減し、オーバーフィッティングの問題を軽減し、(2)トレーニング時間の約30%を節約し、(3)事前トレーニングされたパラメータを修正できるようにし、データセット間で事前トレーニングされたモデルを共有できるようにする。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoのデータセットで完全に調整された手法と比較して、ベルやホイッスルがなければ、優れた、あるいは同等のパフォーマンスを達成できる。
コードは \url{https://github.com/LeapLabTHU/Cross-Modal-Adapter} で入手できる。
関連論文リスト
- Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts [14.610244867640471]
最近の視覚言語モデルは大規模事前訓練モデルによって駆動される。
本稿では,過剰適合,破滅的忘れ,視覚と言語間の相互的ギャップといった課題に対処するパラメータ効率の手法を提案する。
いくつかのビデオ質問応答ベンチマークの実験は、性能とパラメータ効率の点で、我々のアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2023-09-27T18:00:09Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval [60.454321238910474]
最先端のビデオテキスト検索手法は、通常、特定のデータセット上で事前訓練されたモデルを完全に微調整する。
本稿では,事前学習モデルを用いてパラメータ効率の高いVTRを実現する先駆的手法を提案する。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-19T03:42:56Z) - HADA: A Graph-based Amalgamation Framework in Image-text Retrieval [2.3013879633693266]
本稿では,事前学習したモデルを組み合わせることで,より優れた結果が得られる,コンパクトなグラフベースフレームワークHADAを提案する。
Flickr30kデータセットの評価指標から,HADAはベースライン性能を3.6%以上向上できることを示した。
論文 参考訳(メタデータ) (2023-01-11T22:25:20Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。