論文の概要: Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.14004v3
- Date: Mon, 26 Jan 2026 09:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:06.899263
- Title: Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models
- Title(参考訳): Locate, Steer, and Improve: 大規模言語モデルにおける動作可能なメカニスティック解釈の実践的調査
- Authors: Hengyuan Zhang, Zhihao Zhang, Mingyang Wang, Zunhai Su, Yiwei Wang, Qianli Wang, Shuzhou Yuan, Ercong Nie, Xufeng Duan, Qibo Xue, Zeping Yu, Chenming Shang, Xiao Liang, Jing Xiong, Hui Shen, Chaofan Tao, Zhengwu Liu, Senjie Jin, Zhiheng Xi, Dongdong Zhang, Sophia Ananiadou, Tao Gui, Ruobing Xie, Hayden Kwok-Hay So, Hinrich Schütze, Xuanjing Huang, Qi Zhang, Ngai Wong,
- Abstract要約: 機械的解釈可能性 (MI) は、大規模言語モデル (LLM) の意思決定を決定づける重要なアプローチとして登場した。
Awesomeinterventionable-MI-Survey" というパイプラインを中心に構築された実践的調査を提案する。
- 参考スコア(独自算出の注目度): 122.58252919699122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
- Abstract(参考訳): 機械的解釈可能性(MI)は、Large Language Models (LLMs) の不透明な決定を解き明かす重要なアプローチとして登場した。
しかし、既存のレビューは主にMIを観察科学として扱い、分析的な洞察を要約しつつ、実行可能な介入のための体系的な枠組みを欠いている。
このギャップを埋めるため、パイプラインの周りに構築された実践的な調査である"Locate, Steer, and Improve"を紹介します。
我々は,厳密な介入プロトコルを確立するために,特定の解釈可能なオブジェクトに基づいて,局所化(診断)とステアリング(介入)の手法を正式に分類する。
さらに、モデル最適化のための実用的な手法としてMIを効果的に運用することで、アライメント、キャパビリティ、効率の具体的な改善を実現する方法を示す。
この作業のキュレートされたペーパーリストはhttps://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.comで公開されている。
関連論文リスト
- Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - InverseScope: Scalable Activation Inversion for Interpreting Large Language Models [5.670123459649656]
InverseScopeは、入力インバージョンを介して神経活性化を解釈するための仮定ライトでスケーラブルなフレームワークである。
高次元空間におけるサンプリングの非効率性に対処するために,新しい条件生成アーキテクチャを提案する。
また,サンプル入力上で計算された特徴整合率を用いて,解釈可能性仮説をテストする定量的評価プロトコルを導入する。
論文 参考訳(メタデータ) (2025-06-09T03:59:28Z) - Using Machine Learning to Discover Parsimonious and Physically-Interpretable Representations of Catchment-Scale Rainfall-Runoff Dynamics [0.8594140167290097]
我々は、システム機能に関するより良い洞察を促進するために、パーシモーラスな最小最適表現を開発する。
物理的解釈可能性と予測性能の両立が,分散状態ネットワークを用いて達成できることが判明した。
その結果,数層 (最大2層) しか持たないMCPベースのMLモデルと相対性理論は,MLベースのストリームフローモデリングにおいて重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-12-06T08:30:01Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Towards Best Practices of Activation Patching in Language Models:
Metrics and Methods [9.121998462494533]
評価指標や汚損手法を含む,アクティベーションパッチングにおける方法論的詳細の影響について検討する。
経験的観察に支えられ、ある指標や方法が好まれる理由について、概念的な議論を行う。
論文 参考訳(メタデータ) (2023-09-27T21:53:56Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。