論文の概要: MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval
- arxiv url: http://arxiv.org/abs/2301.07868v2
- Date: Thu, 11 Apr 2024 06:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 19:46:03.441902
- Title: MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval
- Title(参考訳): MV-Adapter:ビデオテキスト検索のためのマルチモーダルビデオ転送学習
- Authors: Xiaojie Jin, Bowen Zhang, Weibo Gong, Kai Xu, XueQing Deng, Peng Wang, Zhao Zhang, Xiaohui Shen, Jiashi Feng,
- Abstract要約: 最先端のビデオテキスト検索手法は、通常、特定のデータセット上で事前訓練されたモデルを完全に微調整する。
本稿では,事前学習モデルを用いてパラメータ効率の高いVTRを実現する先駆的手法を提案する。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 60.454321238910474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art video-text retrieval (VTR) methods typically involve fully fine-tuning a pre-trained model (e.g. CLIP) on specific datasets. However, this can result in significant storage costs in practical applications as a separate model per task must be stored. To address this issue, we present our pioneering work that enables parameter-efficient VTR using a pre-trained model, with only a small number of tunable parameters during training. Towards this goal, we propose a new method dubbed Multimodal Video Adapter (MV-Adapter) for efficiently transferring the knowledge in the pre-trained CLIP from image-text to video-text. Specifically, MV-Adapter utilizes bottleneck structures in both video and text branches, along with two novel components. The first is a Temporal Adaptation Module that is incorporated in the video branch to introduce global and local temporal contexts. We also train weights calibrations to adjust to dynamic variations across frames. The second is Cross Modality Tying that generates weights for video/text branches through sharing cross modality factors, for better aligning between modalities. Thanks to above innovations, MV-Adapter can achieve comparable or better performance than standard full fine-tuning with negligible parameters overhead. Notably, MV-Adapter consistently outperforms various competing methods in V2T/T2V tasks with large margins on five widely used VTR benchmarks (MSR-VTT, MSVD, LSMDC, DiDemo, and ActivityNet).
- Abstract(参考訳): 最先端のビデオテキスト検索(VTR)手法は通常、特定のデータセット上で事前訓練されたモデル(例えばCLIP)を完全に微調整する。
しかし、これは、タスク毎に個別のモデルを保存する必要があるため、実用的なアプリケーションにおいてかなりのストレージコストをもたらす可能性がある。
そこで本研究では,事前学習モデルを用いてパラメータ効率の高いVTRを実現するための先駆的な手法を提案する。
そこで本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
具体的には、MV-Adapterはビデオブランチとテキストブランチの両方のボトルネック構造と、2つの新しいコンポーネントを利用する。
1つ目は、ビデオブランチに組み込まれた時間適応モジュールで、グローバルな時間的コンテキストとローカルな時間的コンテキストを導入する。
ウェイトキャリブレーションをトレーニングして、フレーム間の動的変動に合わせて調整します。
2つ目はクロスモダリティタイリング(Cross Modality Tying)で、モダリティ間の整合性を改善するために、クロスモダリティ因子を共有することによってビデオ/テキストブランチの重みを生成する。
上記のイノベーションのおかげで、MV-Adapterは、無視できるパラメータのオーバーヘッドで、標準のフルチューニングよりも同等または優れたパフォーマンスを達成することができる。
特に、MV-AdapterはV2T/T2Vタスクにおいて、広く使用されている5つのVTRベンチマーク(MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet)において、多くのマージンを持つ様々な競合メソッドを一貫して上回っている。
関連論文リスト
- VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - Multi-event Video-Text Retrieval [33.470499262092105]
Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。
マルチイベントビデオテキスト検索(MeVTR)タスクを導入し、各ビデオが複数の異なるイベントを含むシナリオに対処する。
本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。
論文 参考訳(メタデータ) (2023-08-22T16:32:46Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。