論文の概要: Re-Imagining Multimodal Instruction Tuning: A Representation View
- arxiv url: http://arxiv.org/abs/2503.00723v3
- Date: Thu, 20 Mar 2025 21:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:53:06.856383
- Title: Re-Imagining Multimodal Instruction Tuning: A Representation View
- Title(参考訳): マルチモーダル・インストラクション・チューニングの再検討:表現的視点
- Authors: Yiyang Liu, James Chenhao Liang, Ruixiang Tang, Yugyung Lee, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Lifu Huang, Dongfang Liu, Qifan Wang, Cheng Han,
- Abstract要約: マルチモーダル・インストラクション・チューニングはゼロショットの一般化を実現するための効果的な戦略であることが証明されている。
LMMの規模が拡大するにつれて、これらのモデルを完全に微調整し、パラメーター集約化が進んでいる。
意味的にリッチなマルチモーダル表現を直接編集することに焦点を当てた新しいアプローチであるMultimodal Representation Tuning(MRT)を導入する。
- 参考スコア(独自算出の注目度): 43.330347334276965
- License:
- Abstract: Multimodal instruction tuning has proven to be an effective strategy for achieving zero-shot generalization by fine-tuning pre-trained Large Multimodal Models (LMMs) with instruction-following data. However, as the scale of LMMs continues to grow, fully fine-tuning these models has become highly parameter-intensive. Although Parameter-Efficient Fine-Tuning (PEFT) methods have been introduced to reduce the number of tunable parameters, a significant performance gap remains compared to full fine-tuning. Furthermore, existing PEFT approaches are often highly parameterized, making them difficult to interpret and control. In light of this, we introduce Multimodal Representation Tuning (MRT), a novel approach that focuses on directly editing semantically rich multimodal representations to achieve strong performance and provide intuitive control over LMMs. Empirical results show that our method surpasses current state-of-the-art baselines with significant performance gains (e.g., 1580.40 MME score) while requiring substantially fewer tunable parameters (e.g., 0.03% parameters). Additionally, we conduct experiments on editing instrumental tokens within multimodal representations, demonstrating that direct manipulation of these representations enables simple yet effective control over network behavior.
- Abstract(参考訳): 命令追従データを用いたLMM(Large Multimodal Models)を微調整することにより,ゼロショットの一般化を実現するための効果的な手法として,マルチモーダル命令チューニングが証明されている。
しかし、LMMの規模が拡大するにつれて、これらのモデルを完全に微調整し、パラメータに強く依存するようになった。
調整可能なパラメータの数を減らすためにPEFT法が導入されたが、完全な微調整と比較して大きな性能差は残っていない。
さらに、既存のPEFTアプローチはしばしばパラメータ化されており、解釈や制御が困難である。
そこで本研究では,Multimodal Representation Tuning(MRT)を提案する。これは意味的にリッチなマルチモーダル表現を直接編集し,強力な性能を実現し,LMMを直感的に制御する手法である。
実験の結果,提案手法は現状のベースラインをはるかに上回り(例えば,1580.40 MMEスコア),チューニング可能なパラメータ(例えば,0.03%パラメータ)をかなり少なくすることがわかった。
さらに,マルチモーダル表現における機器トークンの編集実験を行い,これらの表現を直接操作することで,ネットワークの動作をシンプルかつ効果的に制御できることを実証した。
関連論文リスト
- Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models [24.62337386603331]
大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。
下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。
本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
論文 参考訳(メタデータ) (2024-10-29T07:55:50Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Tuning LayerNorm in Attention: Towards Efficient Multi-Modal LLM
Finetuning [34.49906405191175]
本稿では,Large Language Model(LLM)をMLLM(Multi-Modal Large Language Model)に変換するための効率的な戦略を提案する。
強いパフォーマンスを得るためにLayerNormをチューニングする。
フルパラメータファインタニングやLoRAといった他のチューニングアプローチと比較した場合、その効率性に対するメリットはかなり大きい。
論文 参考訳(メタデータ) (2023-12-18T18:21:43Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。