論文の概要: SCALPEL: Selective Capability Ablation via Low-rank Parameter Editing for Large Language Model Interpretability Analysis
- arxiv url: http://arxiv.org/abs/2601.07411v1
- Date: Mon, 12 Jan 2026 10:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.345042
- Title: SCALPEL: Selective Capability Ablation via Low-rank Parameter Editing for Large Language Model Interpretability Analysis
- Title(参考訳): SCALPEL: 大規模言語モデル解釈可能性解析のための低ランクパラメータ編集による選択的キャパビリティアブレーション
- Authors: Zihao Fu, Xufeng Duan, Zhenguang G. Cai,
- Abstract要約: 大規模言語モデルは多様なドメインにまたがって優れているが、その内部メカニズムの理解が不十分なため、ハイテイクシステムへの展開は制限されている。
独立モジュールではなく低ランクサブスペースとして機能を表現するフレームワークであるSCALPELを提案する。
一般的な言語モデリングの品質を維持しながら、正解と誤解の区別を減らすためにLoRAをトレーニングすることにより、SCALPELは、他と切り離されたまま、特定の機能に責任を負う低ランクの表現を識別する。
- 参考スコア(独自算出の注目度): 5.684482188223278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel across diverse domains, yet their deployment in healthcare, legal systems, and autonomous decision-making remains limited by incomplete understanding of their internal mechanisms. As these models integrate into high-stakes systems, understanding how they encode capabilities has become fundamental to interpretability research. Traditional approaches identify important modules through gradient attribution or activation analysis, assuming specific capabilities map to specific components. However, this oversimplifies neural computation: modules may contribute to multiple capabilities simultaneously, while single capabilities may distribute across multiple modules. These coarse-grained analyses fail to capture fine-grained, distributed capability encoding. We present SCALPEL (Selective Capability Ablation via Low-rank Parameter Editing for Large language models), a framework representing capabilities as low-rank parameter subspaces rather than discrete modules. Our key insight is that capabilities can be characterized by low-rank modifications distributed across layers and modules, enabling precise capability removal without affecting others. By training LoRA adapters to reduce distinguishing correct from incorrect answers while preserving general language modeling quality, SCALPEL identifies low-rank representations responsible for particular capabilities while remaining disentangled from others. Experiments across diverse capability and linguistic tasks from BLiMP demonstrate that SCALPEL successfully removes target capabilities while preserving general capabilities, providing fine-grained insights into capability distribution across parameter space. Results reveal that capabilities exhibit low-rank structure and can be selectively ablated through targeted parameter-space interventions, offering nuanced understanding of capability encoding in LLMs.
- Abstract(参考訳): 大規模言語モデルは様々な領域にまたがって優れているが、医療、法体系、自律的な意思決定への展開は、内部メカニズムの完全な理解によって制限されている。
これらのモデルがハイテイクシステムに統合されるにつれて、能力のエンコード方法を理解することが、解釈可能性研究の基盤となっている。
従来のアプローチでは、特定のコンポーネントに特定の機能をマップすると仮定して、勾配属性やアクティベーション分析を通じて重要なモジュールを識別する。
しかし、これは神経計算を単純化する。モジュールは複数の機能に同時に貢献し、単一の機能は複数のモジュールに分散する。
これらの粗粒度解析は、細粒度で分散能力の符号化を捉えることができない。
本稿では,SCALPEL(Selective Capability Ablation via Low-rank Parameter Editing for Large Language Model)を提案する。
私たちの重要な洞察は、能力は層やモジュールに分散した低ランクな変更によって特徴づけられるため、他のものに影響を与えることなく、正確に機能を削除することができるということです。
一般的な言語モデリングの品質を維持しながら、正解と誤解の区別を減らすためにLoRAアダプタをトレーニングすることにより、SCALPELは、他と切り離されたまま、特定の機能に責任を負う低ランクの表現を識別する。
BLiMPによる多種多様な能力と言語的タスクに対する実験は、SCALPELが汎用能力を保ちながら目標能力をうまく除去し、パラメータ空間をまたいだ能力分布に関する詳細な洞察を提供することを示した。
その結果,能力は低ランクな構造を示し,目的パラメータ空間の介入によって選択的に改善できることが判明した。
関連論文リスト
- Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline [5.740204096484276]
画像偽造解析に適した訓練不要MLLMベースのパイプラインであるForeseeを提案する。
Foreseeはタイププライア駆動の戦略を採用し、コピー-ムーブ操作を処理するためにFlexible Feature Detectorモジュールを使用している。
提案手法は,より優れた局所化精度を実現し,より包括的なテキスト説明を提供する。
論文 参考訳(メタデータ) (2025-11-17T14:49:57Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - Do We Really Need GNNs with Explicit Structural Modeling? MLPs Suffice for Language Model Representations [50.45261187796993]
グラフニューラルネットワーク(GNN)は構造情報を十分に活用できないが、MLP(Multi-Layer Perceptrons)は構造認識タスクにおいて驚くべき能力を示す。
本稿では,情報理論の観点から総合的な探索フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-26T18:10:28Z) - Inducing, Detecting and Characterising Neural Modules: A Pipeline for Functional Interpretability in Reinforcement Learning [1.597617022056624]
ネットワーク重みの空間性と局所性がRLポリシネットワークにおける機能モジュールの出現にいかに寄与するかを示す。
これらの手法を2Dおよび3D MiniGrid環境に適用すると、異なる軸に対して異なるナビゲーションモジュールが一貫した出現を示す。
論文 参考訳(メタデータ) (2025-01-28T17:02:16Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Can Large Language Models Learn Independent Causal Mechanisms? [9.274428418715347]
大きな言語モデル(LLM)は、一般的でない設定や分散シフトで同じタスクで不足する。
本研究では,抽象変数と因果関係を学習する因果モデルにより,分布の変化に対するロバスト性の向上が示された。
論文 参考訳(メタデータ) (2024-02-04T23:04:02Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。