論文の概要: Do LLMs and VLMs Share Neurons for Inference? Evidence and Mechanisms of Cross-Modal Transfer
- arxiv url: http://arxiv.org/abs/2602.19058v1
- Date: Sun, 22 Feb 2026 06:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.463555
- Title: Do LLMs and VLMs Share Neurons for Inference? Evidence and Mechanisms of Cross-Modal Transfer
- Title(参考訳): LLMとVLMは推論のためにニューロンを共有しているか?-クロスモーダル移動の証拠とメカニズム
- Authors: Chenhang Cui, An Zhang, Yuxin Chen, Gelei Deng, Jingnan Zheng, Zhenkai Liang, Xiang Wang, Tat-Seng Chua,
- Abstract要約: 我々は,多段階の推論と構成決定を必要とするタスクにおいて,LVLMが強いテキストのみの大規模言語モデル(LLM)に遅れていることを示す。
LLMからLVLMへ成熟型推論回路を転送するパラメータ効率の高いフレームワークである共有ニューロン低ランク融合(SNRF)を提案する。
その結果、共有ニューロンはLLMとLVLMの間の解釈可能なブリッジを形成し、低コストでマルチモーダルモデルへの推論能力の移行を可能にした。
- 参考スコア(独自算出の注目度): 65.72553715508691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) have rapidly advanced across various domains, yet they still lag behind strong text-only large language models (LLMs) on tasks that require multi-step inference and compositional decision-making. Motivated by their shared transformer architectures, we investigate whether the two model families rely on common internal computation for such inference. At the neuron level, we uncover a surprisingly large overlap: more than half of the top-activated units during multi-step inference are shared between representative LLMs and LVLMs, revealing a modality-invariant inference subspace. Through causal probing via activation amplification, we further show that these shared neurons encode consistent and interpretable concept-level effects, demonstrating their functional contribution to inference. Building on this insight, we propose Shared Neuron Low-Rank Fusion (SNRF), a parameter-efficient framework that transfers mature inference circuitry from LLMs to LVLMs. SNRF profiles cross-model activations to identify shared neurons, computes a low-rank approximation of inter-model weight differences, and injects these updates selectively within the shared-neuron subspace. This mechanism strengthens multimodal inference performance with minimal parameter changes and requires no large-scale multimodal fine-tuning. Across diverse mathematics and perception benchmarks, SNRF consistently enhances LVLM inference performance while preserving perceptual capabilities. Our results demonstrate that shared neurons form an interpretable bridge between LLMs and LVLMs, enabling low-cost transfer of inference ability into multimodal models. Our code is available at [https://github.com/chenhangcuisg-code/Do-LLMs-VLMs-Share-Neurons](https://github.com/chenhangcuisg-code/Do-LLMs-VLMs-Share-Neurons).
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、様々な領域で急速に進歩しているが、多段階推論と構成決定を必要とするタスクにおいて、強いテキストのみの大規模言語モデル(LLM)に遅れを取っている。
共用トランスアーキテクチャに動機づけられた2つのモデルファミリが、そのような推論に共通内部計算に依存するかどうかを考察する。
ニューロンレベルでは、多段階推論における上位活性単位の半数以上が代表LLMとLVLMの間で共有され、モダリティ不変の推論部分空間が明らかになる。
さらに、活性化増幅による因果探索を通じて、これらの共有ニューロンは、一貫した、解釈可能な概念レベルの効果をコードし、推論に対する機能的寄与を示す。
この知見に基づいて、成熟した推論回路をLLMからLVLMへ転送するパラメータ効率の高いフレームワークである共有ニューロン低ランク融合(SNRF)を提案する。
SNRFは、共有ニューロンを識別するためのモデル間アクティベーションをプロファイルし、モデル間重量差の低ランク近似を計算し、共有ニューロンサブ空間内でこれらの更新を選択的に注入する。
この機構は,パラメータの変化を最小限に抑えたマルチモーダル推論性能を強化し,大規模マルチモーダル微調整を必要としない。
SNRFは様々な数学と知覚のベンチマークを通じて、知覚能力を維持しながらLVLM推論性能を一貫して向上させる。
その結果、共有ニューロンはLLMとLVLMの間の解釈可能なブリッジを形成し、低コストでマルチモーダルモデルへの推論能力の移行を可能にした。
私たちのコードは[https://github.com/chenhangcuisg-code/Do-LLMs-VLMs-Share-Neurons][https://github.com/chenhangcuisg-code/Do-LLMs-VLMs-Share-Neurons]で利用可能です。
関連論文リスト
- Consensus-Aligned Neuron Efficient Fine-Tuning Large Language Models for Multi-Domain Machine Translation [26.913797159189787]
マルチドメイン機械翻訳(MDMT)は、様々なドメインにまたがるコンテンツを翻訳できる統一モデルを構築することを目的としている。
ドメイン適応は、大きな言語モデル(LLM)の課題であり続けている。
LLM内のコンセンサスに整合したニューロンを特定し,更新するMDMTのためのニューロン効率のよい微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T14:20:59Z) - Neuronal Group Communication for Efficient Neural representation [85.36421257648294]
本稿では, 効率的な, モジュラー, 解釈可能な表現を学習する, 大規模ニューラルシステムの構築方法に関する問題に対処する。
本稿では、ニューラルネットワークを相互作用する神経群の動的システムとして再認識する理論駆動型フレームワークである神経グループ通信(NGC)を提案する。
NGCは、重みを埋め込みのようなニューロン状態間の過渡的な相互作用として扱い、神経計算はニューロン群間の反復的なコミュニケーションを通じて展開する。
論文 参考訳(メタデータ) (2025-10-19T14:23:35Z) - NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - Multimodal Function Vectors for Spatial Relations [33.20813174218433]
視覚言語モデルOpenFlamingo-4Bの注意点のサブセットが空間関係の表現を伝達する役割を担っていることを示す。
これらのアテンションヘッドの活性化は、関数ベクトルと呼ばれ、リレーショナルタスクにおけるLMMのパフォーマンスを変更するために抽出し、操作することができる。
論文 参考訳(メタデータ) (2025-10-02T19:55:56Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents [55.82787697101274]
Bifrost-1は、事前訓練されたマルチモーダルLLM(MLLM)と拡散モデルをブリッジする統合フレームワークである。
予め訓練したMLLMと拡散モデルとパッチレベルのCLIPラプタントをシームレスに統合することにより,高忠実度制御可能な画像生成を実現する。
実験の結果,Bifrost-1は視覚的忠実度やマルチモーダル理解の観点から,従来の手法と同等あるいは優れた性能を達成できた。
論文 参考訳(メタデータ) (2025-08-08T02:38:47Z) - Probing Neural Topology of Large Language Models [12.298921317333452]
本稿では,大規模言語モデルの機能的接続を明らかにするためのグラフ探索手法を提案する。
多様なLLMファミリーやスケールのモデルを探索することにより、次の予測性能の普遍的な予測可能性を見出す。
興味深いことに、トポロジーの探索は、最大130.4%のアクティベーションでの探索よりも優れている。
論文 参考訳(メタデータ) (2025-06-01T14:57:03Z) - Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs [19.472889262384818]
本稿では,重要なパラメータを抽出し,それらを選択的にマージする学習自由パラメータ融合フレームワークを提案する。
我々は,大きなパラメータシフトを持つニューロンの影響を保ったニューロンレベルの戦略であるニューロン融合を導入する。
言語と視覚タスクの両方にわたる13のベンチマークによる実験では、Neuron-Fusionが既存のモデルマージメソッドを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-22T14:04:43Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers [52.88268942796418]
内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
論文 参考訳(メタデータ) (2023-09-25T13:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。