論文の概要: Multimodal Video Adapter for Parameter Efficient Video Text Retrieval
- arxiv url: http://arxiv.org/abs/2301.07868v1
- Date: Thu, 19 Jan 2023 03:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 15:44:34.312072
- Title: Multimodal Video Adapter for Parameter Efficient Video Text Retrieval
- Title(参考訳): パラメータ効率の良いビデオテキスト検索のためのマルチモーダルビデオアダプタ
- Authors: Bowen Zhang, Xiaojie Jin, Weibo Gong, Kai Xu, Zhao Zhang, Peng Wang,
Xiaohui Shen, Jiashi Feng
- Abstract要約: 最先端のビデオテキスト検索手法は通常、訓練済みのモデル(例えばCLIP)を特定のデータセットで完全に微調整する。
本稿では,事前学習モデルからパラメータ効率のよいVTRを実現するための先行研究について述べる。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 81.88648509168962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art video-text retrieval (VTR) methods usually fully fine-tune
the pre-trained model (e.g. CLIP) on specific datasets, which may suffer from
substantial storage costs in practical applications since a separate model per
task needs to be stored. To overcome this issue, we present the premier work on
performing parameter-efficient VTR from the pre-trained model, i.e., only a
small number of parameters are tunable while freezing the backbone. Towards
this goal, we propose a new method dubbed Multimodal Video Adapter (MV-Adapter)
for efficiently transferring the knowledge in the pre-trained CLIP from
image-text to video-text. Specifically, MV-Adapter adopts bottleneck structures
in both video and text branches and introduces two novel components. The first
is a Temporal Adaptation Module employed in the video branch to inject global
and local temporal contexts. We also learn weights calibrations to adapt to the
dynamic variations across frames. The second is a Cross-Modal Interaction
Module that generates weights for video/text branches through a shared
parameter space, for better aligning between modalities. Thanks to above
innovations, MV-Adapter can achieve on-par or better performance than standard
fine-tuning with negligible parameters overhead. Notably, on five widely used
VTR benchmarks (MSR-VTT, MSVD, LSMDC, DiDemo, and ActivityNet), MV-Adapter
consistently outperforms various competing methods in V2T/T2V tasks with large
margins. Codes will be released.
- Abstract(参考訳): 最先端のビデオテキスト検索(vtr:state-of-the-art video-text retrieval)メソッドは通常、特定のデータセットで事前訓練されたモデル(例えばクリップ)を完全に微調整する。
そこで本研究では,事前学習したモデルからパラメータ効率のよいvtrを行うための最重要課題として,バックボーンを凍結しながら少数のパラメータしか調整できないことを提案する。
本研究では,事前学習されたクリップの知識を画像テキストからビデオテキストに効率的に転送するマルチモーダルビデオアダプタ(mv-adapter)を提案する。
具体的には、MV-Adapterはビデオとテキストの両方でボトルネック構造を採用し、2つの新しいコンポーネントを導入している。
ひとつは、ビデオブランチで採用されている時間適応モジュールで、グローバルとローカルの時間的コンテキストを注入する。
フレーム間の動的変動に対応するために、ウェイトキャリブレーションも学習します。
2つ目はクロスモーダルインタラクションモジュールで、共有パラメータ空間を通じてビデオ/テキストブランチの重みを生成し、モダリティ間の整合性を改善する。
上記のイノベーションのおかげで、MV-Adapterは、無視できるパラメーターのオーバーヘッドで標準の微調整よりも高いパフォーマンスを達成することができる。
特に、広く使われている5つのVTRベンチマーク(MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet)では、MV-AdapterはV2T/T2Vタスクにおいて、大きなマージンを持つ様々な競合メソッドよりも一貫して優れている。
コードはリリースされる。
関連論文リスト
- VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - Multi-event Video-Text Retrieval [33.470499262092105]
Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。
マルチイベントビデオテキスト検索(MeVTR)タスクを導入し、各ビデオが複数の異なるイベントを含むシナリオに対処する。
本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。
論文 参考訳(メタデータ) (2023-08-22T16:32:46Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。