論文の概要: Minimal neuron ablation triggers catastrophic collapse in the language core of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.00918v1
- Date: Sun, 30 Nov 2025 14:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.497533
- Title: Minimal neuron ablation triggers catastrophic collapse in the language core of Large Vision-Language Models
- Title(参考訳): ミニマルニューロンアブレーションは、大視野言語モデルにおける言語核の破滅的崩壊を引き起こす
- Authors: Cen Lu, Yung-Chen Tang, Andrea Cavallaro,
- Abstract要約: LVLM(Large Vision-Language Models)は、マルチモーダルな理解能力を示すが、その堅牢性はあまり理解されていない。
本稿では,LVLMの構造的脆弱性を解明し,破壊的崩壊を引き起こす重要なニューロンを同定する。
- 参考スコア(独自算出の注目度): 17.186414423941482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown impressive multimodal understanding capabilities, yet their robustness is poorly understood. In this paper, we investigate the structural vulnerabilities of LVLMs to identify any critical neurons whose removal triggers catastrophic collapse. In this context, we propose CAN, a method to detect Consistently Activated Neurons and to locate critical neurons by progressive masking. Experiments on LLaVA-1.5-7b-hf and InstructBLIP-Vicuna-7b reveal that masking only a tiny portion of the language model's feed-forward networks (just as few as four neurons in extreme cases) suffices to trigger catastrophic collapse. Notably, critical neurons are predominantly localized in the language model rather than in the vision components, and the down-projection layer is a particularly vulnerable structure. We also observe a consistent two-stage collapse pattern: initial expressive degradation followed by sudden, complete collapse. Our findings provide important insights for safety research in LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、マルチモーダルな理解能力を示すが、その堅牢性はあまり理解されていない。
本稿では,LVLMの構造的脆弱性を解明し,破壊的崩壊を引き起こす重要なニューロンを同定する。
そこで本研究では,CAN(Consistently Activated Neurons)の検出と,プログレッシブマスキングによる重要なニューロンの発見を行う手法を提案する。
LLaVA-1.5-7b-hf と InstructBLIP-Vicuna-7b の実験では、マスクは言語モデルのフィードフォワードネットワーク(極端に4つのニューロン)のごく一部に限られており、破滅的な崩壊を引き起こす。
特に、臨界ニューロンは視覚成分ではなく言語モデルに主に局在しており、下側投射層は特に脆弱な構造である。
また,一貫した2段階の崩壊パターンも観察した。
本研究は,LVLMの安全性研究における重要な知見である。
関連論文リスト
- The Achilles' Heel of LLMs: How Altering a Handful of Neurons Can Cripple Language Abilities [16.20947034847556]
大規模言語モデル(LLM)は自然言語処理の基礎となるツールとなっている。
近年の研究では、人間の脳内の生物学的ニューロンのごく一部が、コア認知機能に欠かせないことが判明している。
論文 参考訳(メタデータ) (2025-10-11T14:39:09Z) - Probing Neural Topology of Large Language Models [12.298921317333452]
本稿では,大規模言語モデルの機能的接続を明らかにするためのグラフ探索手法を提案する。
多様なLLMファミリーやスケールのモデルを探索することにより、次の予測性能の普遍的な予測可能性を見出す。
興味深いことに、トポロジーの探索は、最大130.4%のアクティベーションでの探索よりも優れている。
論文 参考訳(メタデータ) (2025-06-01T14:57:03Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations [2.759846687681801]
大規模言語モデル(LLM)は、タスクの解決に実際に使用している戦略を報告することができるが、その振る舞いを管理する戦略を認識できない場合もある。
これはメタ認知(メタ認知)の程度が限定されていることを示唆している。
我々は,LLMのメタ認知能力の定量化と,その活性化パターンの報告と制御に,文脈内学習を用いた神経科学に着想を得た神経フィードバックパラダイムを導入する。
論文 参考訳(メタデータ) (2025-05-19T22:32:25Z) - Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence [46.548276232795466]
多意味性は言語モデルに広く浸透しており、解釈とモデル行動制御の大きな課題である。
2つの小さなモデルの多意味的トポロジをマッピングし、意味的に無関係だがモデル内の干渉を示す特徴対を同定する。
我々は4つのloci(prompt, token, feature, neuron)に介入し、次のトーケン予測分布における変化を計測し、これらのモデルに体系的な脆弱性を露呈する多意味構造を明らかにする。
論文 参考訳(メタデータ) (2025-05-16T18:20:42Z) - Detecting Neurocognitive Disorders through Analyses of Topic Evolution and Cross-modal Consistency in Visual-Stimulated Narratives [83.15653194899126]
神経認知障害(NCD)の早期発見は、時間的介入と疾患管理に不可欠である。
現在のVSNベースのNCD検出法は主にボトムアップ、刺激駆動認知プロセスと密接に結びついている言語マイクロ構造に焦点を当てている。
本稿では,話題の時間的変化を追跡する動的トピックモデル(DTM)と,物語と視覚刺激の相互整合性を測定するテキスト画像時間アライメントネットワーク(TITAN)の2つの新しいマクロ構造手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T12:16:26Z) - Too Big to Fail: Larger Language Models are Disproportionately Resilient to Induction of Dementia-Related Linguistic Anomalies [7.21603206617401]
より大型のGPT-2モデルでは、マスキングによる劣化の程度を示すために、被マスキング/被マスキングを行うために、不均等に多くの注意ヘッドを必要とすることが示されている。
これらの結果から, トランスフォーマーモデルにおける注意機構は, 認知と脳保護の概念に類似している可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-05T00:31:50Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Fight Perturbations with Perturbations: Defending Adversarial Attacks via Neuron Influence [14.817015950058915]
一般敵攻撃に対する新たな防御法として,emphNeuron-level Inverse Perturbation (NIP)を提案する。
良性例からニューロンの影響を計算し、逆摂動を発生させて入力例を変更する。
論文 参考訳(メタデータ) (2021-12-24T13:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。