論文の概要: SAGE: An Agentic Explainer Framework for Interpreting SAE Features in Language Models
- arxiv url: http://arxiv.org/abs/2511.20820v1
- Date: Tue, 25 Nov 2025 20:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.842494
- Title: SAGE: An Agentic Explainer Framework for Interpreting SAE Features in Language Models
- Title(参考訳): SAGE: SAE機能を言語モデルで解釈するためのエージェント記述フレームワーク
- Authors: Jiaojiao Han, Wujiang Xu, Mingyu Jin, Mengnan Du,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい進歩を遂げているが、その内部メカニズムはほとんど不透明である。
スパースオートエンコーダ(SAE)は、LLM表現をより解釈可能な機能に分解するための有望なツールとして登場した。
本稿では,SAGE(SAE AGentic Explainer)というエージェントベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.102387880457535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress, yet their internal mechanisms remain largely opaque, posing a significant challenge to their safe and reliable deployment. Sparse autoencoders (SAEs) have emerged as a promising tool for decomposing LLM representations into more interpretable features, but explaining the features captured by SAEs remains a challenging task. In this work, we propose SAGE (SAE AGentic Explainer), an agent-based framework that recasts feature interpretation from a passive, single-pass generation task into an active, explanation-driven process. SAGE implements a rigorous methodology by systematically formulating multiple explanations for each feature, designing targeted experiments to test them, and iteratively refining explanations based on empirical activation feedback. Experiments on features from SAEs of diverse language models demonstrate that SAGE produces explanations with significantly higher generative and predictive accuracy compared to state-of-the-art baselines.an agent-based framework that recasts feature interpretation from a passive, single-pass generation task into an active, explanationdriven process. SAGE implements a rigorous methodology by systematically formulating multiple explanations for each feature, designing targeted experiments to test them, and iteratively refining explanations based on empirical activation feedback. Experiments on features from SAEs of diverse language models demonstrate that SAGE produces explanations with significantly higher generative and predictive accuracy compared to state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい進歩を遂げているが、内部メカニズムはほとんど不透明であり、安全で信頼性の高いデプロイメントには大きな課題がある。
スパースオートエンコーダ(SAE)は、LSM表現をより解釈可能な機能に分解するための有望なツールとして登場したが、SAEがキャプチャした特徴を説明することは難しい課題である。
本研究では,SAGE(SAE AGentic Explainer)というエージェントベースのフレームワークを提案する。
SAGEは、機能ごとに複数の説明を体系的に定式化し、テスト対象の実験を設計し、経験的なアクティベーションフィードバックに基づいて説明を反復的に洗練することにより、厳密な方法論を実装している。
多様な言語モデルのSAEの機能の実験により、SAGEは、最先端のベースラインに比べて、生成的および予測的精度が著しく高い説明を生成することが示された。
SAGEは、機能ごとに複数の説明を体系的に定式化し、テスト対象の実験を設計し、経験的なアクティベーションフィードバックに基づいて説明を反復的に洗練することにより、厳密な方法論を実装している。
多様な言語モデルのSAEの特徴に関する実験により、SAGEは最先端のベースラインに比べて、生成的および予測的精度が著しく高い説明を生成することが示された。
関連論文リスト
- ProtSAE: Disentangling and Interpreting Protein Language Models via Semantically-Guided Sparse Autoencoders [30.219733023958188]
Sparse Autoencoder (SAE) は、大規模言語モデルの機械的解釈可能性のための強力なツールとして登場した。
ProtSAEと呼ばれる意味誘導型SAEを提案する。
ProtSAEは,従来の方法と比較して,生物学的に関連性があり,隠れた特徴を解釈できることがわかった。
論文 参考訳(メタデータ) (2025-08-26T11:20:31Z) - Can LLM-Generated Textual Explanations Enhance Model Classification Performance? An Empirical Study [11.117380681219295]
高品質なテキスト記述を自動生成するフレームワークを提案する。
自然言語生成(NLG)メトリクスの包括的スイートを用いて,これらの説明の質を厳格に評価する。
本実験により,自動説明は人手による説明に比べて高い競争力を示すことが示された。
論文 参考訳(メタデータ) (2025-08-13T12:59:08Z) - MetaExplainer: A Framework to Generate Multi-Type User-Centered Explanations for AI Systems [1.9811010456089264]
ユーザ中心の説明を生成するために設計された,ニューロシンボリックなフレームワークであるMetaExplainerを紹介する。
提案手法には3段階のプロセスがある: まず, 現状の大規模言語モデル (LLM) を用いて, ユーザ質問を機械可読形式に分解し, 第二に, システムレコメンデーションを生成するタスクをモデル記述者メソッドに委譲し, そして最後に, 説明者出力を要約した自然言語説明を合成する。
論文 参考訳(メタデータ) (2025-08-01T04:01:40Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - From Feature Importance to Natural Language Explanations Using LLMs with RAG [4.204990010424084]
大規模言語モデル(LLM)の応答に外部知識リポジトリを活用して,トレーサブルな質問応答を導入する。
この知識リポジトリは、高レベルの特徴、特徴の重要性、代替確率を含む、モデルの出力に関するコンテキストの詳細を含む。
社会的・因果的・選択的・コントラスト的な4つの重要な特徴を、人間の説明に関する社会科学研究から一発のプロンプトへと統合し、応答生成過程を導く。
論文 参考訳(メタデータ) (2024-07-30T17:27:20Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。