論文の概要: Explore How to Inject Beneficial Noise in MLLMs
- arxiv url: http://arxiv.org/abs/2511.12917v1
- Date: Mon, 17 Nov 2025 03:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.629057
- Title: Explore How to Inject Beneficial Noise in MLLMs
- Title(参考訳): MLLMにおける有効騒音の注入方法の検討
- Authors: Ruishu Zhu, Sida Huang, Ziheng Jiao, Hongyuan Zhang,
- Abstract要約: マルチモーダル言語モデル(MLLM)は、多モーダルインテリジェンスにおいてますます重要な役割を担っている。
本稿では,従来の手法より優れ,かつ完全な微調整を超越した,有益なランダムノイズを注入することで,新たな微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 10.778199931281485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have played an increasingly important role in multimodal intelligence. However, the existing fine-tuning methods often ignore cross-modal heterogeneity, limiting their full potential. In this work, we propose a novel fine-tuning strategy by injecting beneficial random noise, which outperforms previous methods and even surpasses full fine-tuning, with minimal additional parameters. The proposed Multimodal Noise Generator (MuNG) enables efficient modality fine-tuning by injecting customized noise into the frozen MLLMs. Specifically, we reformulate the reasoning process of MLLMs from a variational inference perspective, upon which we design a multimodal noise generator that dynamically analyzes cross-modal relationships in image-text pairs to generate task-adaptive beneficial noise. Injecting this type of noise into the MLLMs effectively suppresses irrelevant semantic components, leading to significantly improved cross-modal representation alignment and enhanced performance on downstream tasks. Experiments on two mainstream MLLMs, QwenVL and LLaVA, demonstrate that our method surpasses full-parameter fine-tuning and other existing fine-tuning approaches, while requiring adjustments to only about $1\sim2\%$ additional parameters. The relevant code is uploaded in the supplementary.
- Abstract(参考訳): マルチモーダル言語モデル(MLLM)は、多モーダルインテリジェンスにおいてますます重要な役割を担っている。
しかし、既存の微調整法は、しばしばクロスモーダルな不均一性を無視し、その潜在能力を制限している。
本研究では,従来の手法より優れ,かつ最小限の追加パラメータで完全な微調整を超越した,有益なランダムノイズを注入する新しい微調整手法を提案する。
提案したマルチモーダルノイズ発生器 (MuNG) は, 冷凍MLLMにカスタマイズノイズを注入することにより, 効率的なモーダル微調整を可能にする。
具体的には、変動推論の観点からMLLMの推論過程を再構成し、画像-テキスト間の相互関係を動的に解析してタスク適応型有益雑音を生成するマルチモーダルノイズ発生器を設計する。
MLLMにこのようなノイズを注入すると、無関係なセマンティックなコンポーネントが効果的に抑制され、クロスモーダルな表現アライメントが大幅に改善され、下流タスクのパフォーマンスが向上する。
2つのメインストリームMLLM(QwenVLとLLaVA)の実験により,本手法が全パラメータ細調整や他のファインチューニング手法を超越することを示した。
関連するコードはサプリメントにアップロードされる。
関連論文リスト
- MokA: Multimodal Low-Rank Adaptation for MLLMs [11.440424554587674]
マルチモーダル低ランク適応(MokA)は、マルチモーダル対応の効率的な微調整戦略である。
MokAは、モダリティ固有のパラメータによって一様情報を圧縮し、クロスモーダル相互作用を明示的に強化する。
論文 参考訳(メタデータ) (2025-06-05T16:04:08Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。
我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-31T08:43:17Z) - MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource
Visual Question Answering [66.05768870785548]
微調整事前学習型視覚言語モデル(VLM)は、視覚質問応答(VQA)における最先端性能を達成するための一般的なパラダイムである。
現在のパラメータ効率のチューニング手法は、チューニング可能なパラメータの数を劇的に削減するが、完全な微調整を伴う大きなパフォーマンスギャップは依然として残っている。
低リソースVQAにおける完全微調整よりも優れた冗長性を考慮したパラメータ効率調整法であるMixPHMを提案する。
論文 参考訳(メタデータ) (2023-03-02T13:28:50Z) - NoisyTune: A Little Noise Can Help You Finetune Pretrained Language
Models Better [98.5705258907774]
訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。
PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。
NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
論文 参考訳(メタデータ) (2022-02-24T11:08:02Z) - Multiview point cloud registration with anisotropic and space-varying
localization noise [1.5499426028105903]
我々は,高異方性定位雑音で劣化した複数点の雲を登録する問題に対処する。
既存の手法は、空間不変等方性雑音の暗黙の仮定に基づいている。
ノイズハンドリング戦略は,高レベルの異方性雑音に対するロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-01-03T15:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。