論文の概要: M$^2$IST: Multi-Modal Interactive Side-Tuning for Efficient Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2407.01131v2
- Date: Tue, 29 Oct 2024 12:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:36:51.882900
- Title: M$^2$IST: Multi-Modal Interactive Side-Tuning for Efficient Referring Expression Comprehension
- Title(参考訳): M$^2$IST: 効率的な参照表現理解のためのマルチモード対話型サイドチューニング
- Authors: Xuyang Liu, Ting Liu, Siteng Huang, Yi Xin, Yue Hu, Quanjun Yin, Donglin Wang, Honggang Chen,
- Abstract要約: 参照式理解(Referring Expression comprehension、REC)は、言語表現に基づいて画像中の対象物を特定する視覚言語タスクである。
PETL法は, 調整可能なパラメータが少なく, 高い性能を示した。
M$2$IST: Multi-Modal Interactive Side-Tuning with M$3$ISAs: Mixture of Multi-Modal Interactive Side-Adapters。
- 参考スコア(独自算出の注目度): 36.01063804442098
- License:
- Abstract: Referring expression comprehension (REC) is a vision-language task to locate a target object in an image based on a language expression. Fully fine-tuning general-purpose pre-trained vision-language foundation models for REC yields impressive performance but becomes increasingly costly. Parameter-efficient transfer learning (PETL) methods have shown strong performance with fewer tunable parameters. However, directly applying PETL to REC faces two challenges: (1) insufficient multi-modal interaction between pre-trained vision-language foundation models, and (2) high GPU memory usage due to gradients passing through the heavy vision-language foundation models. To this end, we present M$^2$IST: Multi-Modal Interactive Side-Tuning with M$^3$ISAs: Mixture of Multi-Modal Interactive Side-Adapters. During fine-tuning, we keep the pre-trained uni-modal encoders fixed, updating M$^3$ISAs on side networks to progressively connect them, enabling more comprehensive vision-language alignment and efficient tuning for REC. Empirical results reveal that M$^2$IST achieves an optimal balance between performance and efficiency compared to most full fine-tuning and other PETL methods. With M$^2$IST, standard transformer-based REC methods present competitive or even superior performance compared to full fine-tuning, while utilizing only 2.11\% of the tunable parameters, 39.61\% of the GPU memory, and 63.46\% of the fine-tuning time required for full fine-tuning.
- Abstract(参考訳): 参照式理解(Referring Expression comprehension、REC)は、言語表現に基づいて画像中の対象物を特定する視覚言語タスクである。
RECのための完全な微調整された汎用の視覚言語基礎モデルは、素晴らしい性能を得るが、ますますコストがかかる。
パラメータ効率変換学習 (PETL) 法は, 調整可能なパラメータが少なく, 高い性能を示した。
しかし、PETLをRECに直接適用することは、(1)事前学習された視覚言語基礎モデル間のマルチモーダル相互作用が不十分であること、(2)重い視覚言語基礎モデルを通過する勾配による高いGPUメモリ使用量である。
この目的のために、M$^2$IST: Multi-Modal Interactive Side-Tuning with M$^3$ISAs: Mixture of Multi-Modal Interactive Side-Adaptersを提案する。
微調整中は、事前訓練されたユニモーダルエンコーダを固定し、サイドネットワーク上でM$^3$ISAをアップデートして徐々に接続し、より包括的な視覚言語アライメントとRECの効率的なチューニングを可能にする。
実験結果から,M$^2$ISTは,ほとんどの完全微調整法やPETL法と比較して,性能と効率のバランスが最適であることが判明した。
M$^2$ISTでは、標準の変換器ベースのRECメソッドはフル微調整に比べて競争力や優れた性能を示し、調整可能なパラメータの2.11\%、GPUメモリの39.61\%、フル微調整に必要な微調整時間の63.46\%しか利用していない。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension [14.98036475954174]
Referring Expressionvolution (REC) は、自然言語を介して局所的な視覚領域を構築することを目的としている。
既存のほとんどの方法は、強力な事前訓練されたモデルを使用して、完全な微調整によって視覚的/言語的な知識を伝達する。
本稿では,Multi pre-guided Directly Efficient Tuning,すなわちMaPPERを提案する。
MaPPERは、1.41%のバックボーンパラメータしか持たないフル微調整や他のPETL法と比較して、最も精度が高い。
論文 参考訳(メタデータ) (2024-09-20T16:12:26Z) - CROME: Cross-Modal Adapters for Efficient Multimodal LLM [28.337072921099494]
MLLM(Multimodal Large Language Models)は、画像言語機能を示す。
既存のアプローチは、しばしば高価な言語モデルの再訓練と限定的な適応性を必要とする。
本稿では,効率的な視覚言語命令チューニングフレームワークCROMEを提案する。
論文 参考訳(メタデータ) (2024-08-13T03:45:11Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Parameter-Efficient Transfer Learning for Remote Sensing Image-Text
Retrieval [10.84733740863356]
本研究では,画像テキスト検索タスクにおいて,自然領域から RS 領域に視覚言語知識を伝達するためのパラメータ効率変換学習(PETL)手法について検討する。
提案モデルでは0.16万のトレーニングパラメータしか含まないため,完全微調整に比べて98.9%のパラメータ削減が可能である。
検索性能は従来の手法を7~13%超え,完全微調整よりも高い性能を達成している。
論文 参考訳(メタデータ) (2023-08-24T02:43:53Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - Resource-Efficient Transfer Learning From Speech Foundation Model Using
Hierarchical Feature Fusion [44.056153052137674]
本稿では,音声基礎モデルから資源効率の高い伝達学習を実現するための階層的特徴融合法を提案する。
実験結果から,提案手法は既存のアルゴリズムよりも音声認識タスクの性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-11-04T19:03:45Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。