論文の概要: Multimodal Video Adapter for Parameter Efficient Video Text Retrieval
- arxiv url: http://arxiv.org/abs/2301.07868v1
- Date: Thu, 19 Jan 2023 03:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 15:44:34.312072
- Title: Multimodal Video Adapter for Parameter Efficient Video Text Retrieval
- Title(参考訳): パラメータ効率の良いビデオテキスト検索のためのマルチモーダルビデオアダプタ
- Authors: Bowen Zhang, Xiaojie Jin, Weibo Gong, Kai Xu, Zhao Zhang, Peng Wang,
Xiaohui Shen, Jiashi Feng
- Abstract要約: 最先端のビデオテキスト検索手法は通常、訓練済みのモデル(例えばCLIP)を特定のデータセットで完全に微調整する。
本稿では,事前学習モデルからパラメータ効率のよいVTRを実現するための先行研究について述べる。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 81.88648509168962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art video-text retrieval (VTR) methods usually fully fine-tune
the pre-trained model (e.g. CLIP) on specific datasets, which may suffer from
substantial storage costs in practical applications since a separate model per
task needs to be stored. To overcome this issue, we present the premier work on
performing parameter-efficient VTR from the pre-trained model, i.e., only a
small number of parameters are tunable while freezing the backbone. Towards
this goal, we propose a new method dubbed Multimodal Video Adapter (MV-Adapter)
for efficiently transferring the knowledge in the pre-trained CLIP from
image-text to video-text. Specifically, MV-Adapter adopts bottleneck structures
in both video and text branches and introduces two novel components. The first
is a Temporal Adaptation Module employed in the video branch to inject global
and local temporal contexts. We also learn weights calibrations to adapt to the
dynamic variations across frames. The second is a Cross-Modal Interaction
Module that generates weights for video/text branches through a shared
parameter space, for better aligning between modalities. Thanks to above
innovations, MV-Adapter can achieve on-par or better performance than standard
fine-tuning with negligible parameters overhead. Notably, on five widely used
VTR benchmarks (MSR-VTT, MSVD, LSMDC, DiDemo, and ActivityNet), MV-Adapter
consistently outperforms various competing methods in V2T/T2V tasks with large
margins. Codes will be released.
- Abstract(参考訳): 最先端のビデオテキスト検索(vtr:state-of-the-art video-text retrieval)メソッドは通常、特定のデータセットで事前訓練されたモデル(例えばクリップ)を完全に微調整する。
そこで本研究では,事前学習したモデルからパラメータ効率のよいvtrを行うための最重要課題として,バックボーンを凍結しながら少数のパラメータしか調整できないことを提案する。
本研究では,事前学習されたクリップの知識を画像テキストからビデオテキストに効率的に転送するマルチモーダルビデオアダプタ(mv-adapter)を提案する。
具体的には、MV-Adapterはビデオとテキストの両方でボトルネック構造を採用し、2つの新しいコンポーネントを導入している。
ひとつは、ビデオブランチで採用されている時間適応モジュールで、グローバルとローカルの時間的コンテキストを注入する。
フレーム間の動的変動に対応するために、ウェイトキャリブレーションも学習します。
2つ目はクロスモーダルインタラクションモジュールで、共有パラメータ空間を通じてビデオ/テキストブランチの重みを生成し、モダリティ間の整合性を改善する。
上記のイノベーションのおかげで、MV-Adapterは、無視できるパラメーターのオーバーヘッドで標準の微調整よりも高いパフォーマンスを達成することができる。
特に、広く使われている5つのVTRベンチマーク(MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet)では、MV-AdapterはV2T/T2Vタスクにおいて、大きなマージンを持つ様々な競合メソッドよりも一貫して優れている。
コードはリリースされる。
関連論文リスト
- DAM: Dynamic Adapter Merging for Continual Video QA Learning [70.39409937771103]
連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
提案手法では,(i)壊滅的忘れを軽減し,(ii)継続的に到着するデータセットへの効率的な適応を可能にし,(iv)類似したデータセットドメイン間の知識共有を可能にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
論文 参考訳(メタデータ) (2024-03-13T17:53:47Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question
Answering [13.946943376663208]
本稿では,実行時間とパラメータの効率を優先するRSAdapterという新しい手法を提案する。
RSAdapterの有効性を示すため、3つの異なるRS-VQAデータセットを用いて大規模な実験を行った。
論文 参考訳(メタデータ) (2023-10-19T19:32:27Z) - Multi-event Video-Text Retrieval [33.470499262092105]
Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。
マルチイベントビデオテキスト検索(MeVTR)タスクを導入し、各ビデオが複数の異なるイベントを含むシナリオに対処する。
本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。
論文 参考訳(メタデータ) (2023-08-22T16:32:46Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - End-to-End Referring Video Object Segmentation with Multimodal
Transformers [0.0]
本稿では,ビデオオブジェクトのセグメンテーションタスクへの簡単なトランスフォーマーベースアプローチを提案する。
我々のフレームワークは、MTTR(Multimodal Tracking Transformer)と呼ばれ、RVOSタスクをシーケンス予測問題としてモデル化している。
MTTRはエンドツーエンドのトレーニングが可能で、テキスト関連の帰納バイアスコンポーネントが不要で、追加のマスクリファインメント後処理ステップを必要としない。
論文 参考訳(メタデータ) (2021-11-29T18:59:32Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。