論文の概要: MokA: Multimodal Low-Rank Adaptation for MLLMs
- arxiv url: http://arxiv.org/abs/2506.05191v1
- Date: Thu, 05 Jun 2025 16:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.80603
- Title: MokA: Multimodal Low-Rank Adaptation for MLLMs
- Title(参考訳): MokA:MLLMのためのマルチモーダル低ランク適応
- Authors: Yake Wei, Yu Miao, Dongzhan Zhou, Di Hu,
- Abstract要約: マルチモーダル低ランク適応(MokA)は、マルチモーダル対応の効率的な微調整戦略である。
MokAは、モダリティ固有のパラメータによって一様情報を圧縮し、クロスモーダル相互作用を明示的に強化する。
- 参考スコア(独自算出の注目度): 11.440424554587674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we reveal that most current efficient multimodal fine-tuning methods are hindered by a key limitation: they are directly borrowed from LLMs, often neglecting the intrinsic differences of multimodal scenarios and even affecting the full utilization of all modalities. Inspired by our empirical observation, we argue that unimodal adaptation and cross-modal adaptation are two essential parts for the effective fine-tuning of MLLMs. From this perspective, we propose Multimodal low-rank Adaptation (MokA), a multimodal-aware efficient fine-tuning strategy that takes multimodal characteristics into consideration. It compresses unimodal information by modality-specific parameters while explicitly enhancing cross-modal interaction, ensuring both unimodal and cross-modal adaptation. Extensive experiments cover three representative multimodal scenarios (audio-visual-text, visual-text, and speech-text), and multiple LLM backbones (LLaMA2/3, Qwen2, Qwen2.5-VL, etc). Consistent improvements indicate the efficacy and versatility of the proposed method. Ablation studies and efficiency evaluation are also conducted to fully asses our method. Overall, we think MokA provides a more targeted solution for efficient adaptation of MLLMs, paving the way for further exploration. The project page is at https://gewu-lab.github.io/MokA.
- Abstract(参考訳): 本稿では,LLM から直接借用され,マルチモーダルシナリオの本質的な相違を無視し,全てのモダリティのフル活用に影響を及ぼすという,現行の効率的なマルチモーダル微調整手法が鍵となる制限によって妨げられていることを明らかにする。
実験的な観察から着想を得た結果,一様適応とクロスモーダル適応はMLLMを効果的に微調整するための2つの重要な部分である,という結論が得られた。
この観点から,マルチモーダル特性を考慮したマルチモーダル・ローランク適応(Multimodal Low-rank Adaptation, MokA)を提案する。
モダリティ固有のパラメータによって一様情報を圧縮し、一様および多様の両方の適応を確実にし、相互モード間相互作用を明示的に強化する。
大規模な実験は、3つの代表的なマルチモーダルシナリオ(音声-視覚-テキスト、視覚-テキスト、音声-テキスト)と複数のLCMバックボーン(LLaMA2/3、Qwen2、Qwen2.5-VLなど)をカバーする。
一貫性の向上は,提案手法の有効性と汎用性を示す。
また, 本手法を十分に評価するために, アブレーション研究と効率評価を行った。
全体としては、MakAはMLLMの効率的な適応のためのよりターゲット的なソリューションであり、さらなる探索の道を開くものだと考えています。
プロジェクトのページはhttps://gewu-lab.github.io/MokA.comにある。
関連論文リスト
- Evaluating and Steering Modality Preferences in Multimodal Large Language Model [32.94581875014947]
マルチモーダル大言語モデル(MLLM)は、マルチモーダルコンテキストを持つ複雑なタスクにおいて顕著なパフォーマンスを実現している。
実験対象のMLLMは, すべて明らかなモダリティバイアスを示し, 外部介入の影響を受けやすいことがわかった。
本稿では,モダリティの選好を明示的に制御するための表現工学に基づく探索・操舵手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T10:07:59Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。