Fugu-MT 論文翻訳(概要): MokA: Multimodal Low-Rank Adaptation for MLLMs

論文の概要: MokA: Multimodal Low-Rank Adaptation for MLLMs

arxiv url: http://arxiv.org/abs/2506.05191v1
Date: Thu, 05 Jun 2025 16:04:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.80603
Title: MokA: Multimodal Low-Rank Adaptation for MLLMs
Title（参考訳）: MokA:MLLMのためのマルチモーダル低ランク適応
Authors: Yake Wei, Yu Miao, Dongzhan Zhou, Di Hu,
Abstract要約: マルチモーダル低ランク適応(MokA)は、マルチモーダル対応の効率的な微調整戦略である。 MokAは、モダリティ固有のパラメータによって一様情報を圧縮し、クロスモーダル相互作用を明示的に強化する。
参考スコア（独自算出の注目度）: 11.440424554587674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we reveal that most current efficient multimodal fine-tuning methods are hindered by a key limitation: they are directly borrowed from LLMs, often neglecting the intrinsic differences of multimodal scenarios and even affecting the full utilization of all modalities. Inspired by our empirical observation, we argue that unimodal adaptation and cross-modal adaptation are two essential parts for the effective fine-tuning of MLLMs. From this perspective, we propose Multimodal low-rank Adaptation (MokA), a multimodal-aware efficient fine-tuning strategy that takes multimodal characteristics into consideration. It compresses unimodal information by modality-specific parameters while explicitly enhancing cross-modal interaction, ensuring both unimodal and cross-modal adaptation. Extensive experiments cover three representative multimodal scenarios (audio-visual-text, visual-text, and speech-text), and multiple LLM backbones (LLaMA2/3, Qwen2, Qwen2.5-VL, etc). Consistent improvements indicate the efficacy and versatility of the proposed method. Ablation studies and efficiency evaluation are also conducted to fully asses our method. Overall, we think MokA provides a more targeted solution for efficient adaptation of MLLMs, paving the way for further exploration. The project page is at https://gewu-lab.github.io/MokA.
Abstract（参考訳）: 本稿では,LLM から直接借用され,マルチモーダルシナリオの本質的な相違を無視し,全てのモダリティのフル活用に影響を及ぼすという,現行の効率的なマルチモーダル微調整手法が鍵となる制限によって妨げられていることを明らかにする。実験的な観察から着想を得た結果,一様適応とクロスモーダル適応はMLLMを効果的に微調整するための2つの重要な部分である,という結論が得られた。この観点から,マルチモーダル特性を考慮したマルチモーダル・ローランク適応(Multimodal Low-rank Adaptation, MokA)を提案する。モダリティ固有のパラメータによって一様情報を圧縮し、一様および多様の両方の適応を確実にし、相互モード間相互作用を明示的に強化する。大規模な実験は、3つの代表的なマルチモーダルシナリオ(音声-視覚-テキスト、視覚-テキスト、音声-テキスト)と複数のLCMバックボーン(LLaMA2/3、Qwen2、Qwen2.5-VLなど)をカバーする。一貫性の向上は,提案手法の有効性と汎用性を示す。また, 本手法を十分に評価するために, アブレーション研究と効率評価を行った。全体としては、MakAはMLLMの効率的な適応のためのよりターゲット的なソリューションであり、さらなる探索の道を開くものだと考えています。プロジェクトのページはhttps://gewu-lab.github.io/MokA.comにある。

関連論文リスト

PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文参考訳（メタデータ） (2025-07-10T16:47:25Z)
Evaluating and Steering Modality Preferences in Multimodal Large Language Model [32.94581875014947]
マルチモーダル大言語モデル(MLLM)は、マルチモーダルコンテキストを持つ複雑なタスクにおいて顕著なパフォーマンスを実現している。実験対象のMLLMは, すべて明らかなモダリティバイアスを示し, 外部介入の影響を受けやすいことがわかった。本稿では,モダリティの選好を明示的に制御するための表現工学に基づく探索・操舵手法を提案する。
論文参考訳（メタデータ） (2025-05-27T10:07:59Z)
TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文参考訳（メタデータ） (2025-04-14T05:44:38Z)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文参考訳（メタデータ） (2025-01-28T02:05:38Z)
A Wander Through the Multimodal Landscape: Efficient Transfer Learning via Low-rank Sequence Multimodal Adapter [8.481711069173262]
本稿では,loW-rank sequence multimodal adapter (Wander)を提案する。まず、外積を用いて異なるモダリティから情報を効果的に融合する。効率を上げるために、CP分解を用いてテンソルをランク1成分に分解し、実質的なパラメータ還元を実現する。 Wander氏は、最先端の効率的なトランスファー学習法を一貫して上回り、様々なモダリティを持つデータセットに対して広範な実験を行った。
論文参考訳（メタデータ） (2024-12-12T06:26:02Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。作業は2024年4月にACM MMに提出されたが拒否された。
論文参考訳（メタデータ） (2024-07-23T02:27:52Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。