論文の概要: MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation
- arxiv url: http://arxiv.org/abs/2604.16943v1
- Date: Sat, 18 Apr 2026 09:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.251939
- Title: MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation
- Title(参考訳): MNAFT:画像翻訳のための多モーダル大言語モデルのモーダルニューロンを意識した微調整
- Authors: Bo Li, Ningyuan Deng, Tianyu Dong, Shaobo Wang, Shaolin Zhu, Lijie Wen,
- Abstract要約: MLLM(Multimodal large language model)は印象的な機能を示しているが、画像内の微細なテキスト情報を効果的に捉えるのに苦労することが多い。
既存の手法は、主に命令の微調整、事前訓練された知識のリスクパラメータ冗長性に依存し、一般化性能を妨げている。
MNAFTは,MLLM内の個々のニューロンの役割を活かし,画像翻訳の高度化を図る手法である。
- 参考スコア(独自算出の注目度): 19.679466742536892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) have shown impressive capabilities, yet they often struggle to effectively capture the fine-grained textual information within images crucial for accurate image translation. This often leads to a modality gap between visual text inputs and textual inputs/outputs for image translation. Existing methods, primarily relying on instruction fine-tuning, risk parameter redundancy of pre-trained knowledge, hindering generalization performance. To address this, we introduce modality neuron-aware fine-tuning (MNAFT), a novel approach that takes advantage of the specialized roles of individual neurons within MLLMs for enhanced image translation. MNAFT identifies language-agnostic and language-specific neurons in both vision and language modules through an instruction-driven activation analysis, evaluating their importance in various translation tasks. We then perform selective fine-tuning, updating only the parameters of language-specific and language-agnostic neurons within the selected layers relevant to the target task, while preserving the knowledge encoded in other neurons and layers. Our extensive experiments on multiple benchmarks demonstrate that MNAFT significantly outperforms state-of-the-art image translation methods, including cascaded models, standard full fine-tuning, and parameter-efficient tuning techniques. Furthermore, we provide comprehensive analysis, including visualizations of neuron activations and clustering patterns, to offer insights into the roles of different neuron groups in mediating cross-modal understanding and facilitating accurate language-specific translation.
- Abstract(参考訳): MLLM(Multimodal large language model)は印象的な機能を示しているが、正確な画像翻訳に不可欠な画像内の微細なテキスト情報を効果的に捉えるのに苦労することが多い。
これはしばしば、画像翻訳のための視覚テキスト入力とテキスト入力/出力の間にモダリティギャップをもたらす。
既存の手法は、主に命令の微調整、事前訓練された知識のリスクパラメータ冗長性に依存し、一般化性能を妨げている。
そこで我々は,MLLM内の個々のニューロンの役割を活かし,画像翻訳を改良したMNAFT(Modality Neuron-Aware Fine-tuning)を提案する。
MNAFTは、命令駆動のアクティベーション分析を通じて、視覚と言語モジュールの両方において言語に依存しない、言語固有のニューロンを特定し、様々な翻訳タスクにおけるそれらの重要性を評価する。
次に、選択的な微調整を行い、他のニューロンやレイヤにコードされた知識を保存しながら、対象タスクに関連する選択されたレイヤ内で、言語固有のおよび言語に依存しないニューロンのパラメータのみを更新する。
マルチベンチマーク実験により、MNAFTは、カスケードモデル、標準フルチューニング、パラメータ効率のチューニング技術など、最先端の画像翻訳手法を著しく上回っていることが示された。
さらに、ニューロンの活性化とクラスタリングパターンの可視化を含む包括的分析を行い、相互理解の仲介と正確な言語固有の翻訳の促進において、異なるニューロングループの役割についての洞察を提供する。
関連論文リスト
- Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Language-Specific Layer Matters: Efficient Multilingual Enhancement for Large Vision-Language Models [60.39744129890118]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する能力を示す。
本研究では,LVLMの多言語理解能力と浅い層における言語特異的ニューロン活性化の関連性を明らかにする。
精密LAnguage-Specific 層ファインチューニングによるLVLMの多言語化を実現する学習レシピ PLAST を紹介する。
論文 参考訳(メタデータ) (2025-08-25T18:15:25Z) - LLaVA-NeuMT: Selective Layer-Neuron Modulation for Efficient Multilingual Multimodal Translation [12.51212639515934]
LLaVA-NeuMTは言語固有の表現と言語に依存しない表現を明示的にモデル化し、多言語干渉を緩和する新しいフレームワークである。
提案手法は,異なる言語対の最も情報性の高い層を識別する層選択機構から成り立っている。
我々はM3-Multi30KとM3-AmbigCapsデータセットの広範な実験を行い、LLaVA-NeuMTはモデルパラメータの40%しか微調整していないが、完全な微調整アプローチを超えていることを示した。
論文 参考訳(メタデータ) (2025-07-25T04:23:24Z) - Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs [19.472889262384818]
本稿では,重要なパラメータを抽出し,それらを選択的にマージする学習自由パラメータ融合フレームワークを提案する。
我々は,大きなパラメータシフトを持つニューロンの影響を保ったニューロンレベルの戦略であるニューロン融合を導入する。
言語と視覚タスクの両方にわたる13のベンチマークによる実験では、Neuron-Fusionが既存のモデルマージメソッドを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-22T14:04:43Z) - LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-07-25T10:08:37Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal
Scene Understanding [0.0]
SNeL(Structured Neuro-symbolic Language, 構造化ニューラルシンボリック言語)は,マルチモーダルデータを処理するニューラルネットワークとのニュアンスな相互作用を容易にする汎用的なクエリ言語である。
SNeLの表現的インターフェースは、複雑なクエリの構築、論理演算と算術演算子、コンパレータ、ネストなどをサポートする。
我々の評価は、SNeLが複雑なニューラルネットワークとの相互作用を形作る可能性を示している。
論文 参考訳(メタデータ) (2023-06-09T17:01:51Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。