論文の概要: Concept Component Analysis: A Principled Approach for Concept Extraction in LLMs
- arxiv url: http://arxiv.org/abs/2601.20420v1
- Date: Wed, 28 Jan 2026 09:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.877112
- Title: Concept Component Analysis: A Principled Approach for Concept Extraction in LLMs
- Title(参考訳): 概念成分分析: LLMにおける概念抽出の原理的アプローチ
- Authors: Yuhang Liu, Erdun Gao, Dong Gong, Anton van den Hengel, Javen Qinfeng Shi,
- Abstract要約: 機械的解釈可能性(Mechanistic interpretability)は、大きな言語モデルからの抽出によって問題を緩和しようとする。
スパースオートエンコーダ (SAE) は、解釈可能・単意味的な概念を抽出するための一般的なアプローチである。
SAEは基本的な理論的曖昧さに悩まされており、LLM表現と人間解釈可能な概念との明確に定義された対応はいまだに不明である。
- 参考スコア(独自算出の注目度): 51.378834857406325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing human understandable interpretation of large language models (LLMs) becomes increasingly critical for their deployment in essential domains. Mechanistic interpretability seeks to mitigate the issues through extracts human-interpretable process and concepts from LLMs' activations. Sparse autoencoders (SAEs) have emerged as a popular approach for extracting interpretable and monosemantic concepts by decomposing the LLM internal representations into a dictionary. Despite their empirical progress, SAEs suffer from a fundamental theoretical ambiguity: the well-defined correspondence between LLM representations and human-interpretable concepts remains unclear. This lack of theoretical grounding gives rise to several methodological challenges, including difficulties in principled method design and evaluation criteria. In this work, we show that, under mild assumptions, LLM representations can be approximated as a {linear mixture} of the log-posteriors over concepts given the input context, through the lens of a latent variable model where concepts are treated as latent variables. This motivates a principled framework for concept extraction, namely Concept Component Analysis (ConCA), which aims to recover the log-posterior of each concept from LLM representations through a {unsupervised} linear unmixing process. We explore a specific variant, termed sparse ConCA, which leverages a sparsity prior to address the inherent ill-posedness of the unmixing problem. We implement 12 sparse ConCA variants and demonstrate their ability to extract meaningful concepts across multiple LLMs, offering theory-backed advantages over SAEs.
- Abstract(参考訳): 大規模言語モデル(LLM)の人間による理解可能な解釈の開発は、本質的なドメインへの展開においてますます重要になっている。
機械的解釈可能性(Mechanistic interpretability)は、LLMの活性化から人間の解釈可能なプロセスと概念を抽出することで問題を緩和しようとする。
スパースオートエンコーダ (SAEs) は、LLMの内部表現を辞書に分解することで、解釈可能な、単意味的な概念を抽出するための一般的なアプローチとして登場した。
経験的な進歩にもかかわらず、SAEは基本的な理論的曖昧さに悩まされ、LLM表現と人間解釈可能な概念の明確な対応はいまだ不明である。
この理論的根拠の欠如は、原則的手法設計と評価基準の難しさなど、いくつかの方法論上の問題を引き起こす。
本研究では、軽微な仮定の下では、LLM表現は、概念が潜時変数として扱われる潜時変数モデルのレンズを通して、入力コンテキストが与えられた概念に対する対数補足の {linear mix} として近似できることを示す。
これは概念抽出の原則的フレームワークであるConCA(Concept Component Analysis)を動機付け、LLM表現から {unsupervised} 線形アンミキシングプロセスを通じて各概念のログポストを復元することを目的としている。
未混合問題の本質的な不備に対処するために,スパース・コンカと呼ばれる特定の変種を探索する。
我々は,12のスパース ConCA 変種を実装し,複数の LLM にまたがる意味ある概念を抽出する能力を示し,SAE に対する理論上の優位性を提供する。
関連論文リスト
- Improving Latent Reasoning in LLMs via Soft Concept Mixing [5.230565644173722]
大規模言語モデル(LLM)は通常、離散トークンを生成することによって推論される。
ソフトコンセプトを意識したトレーニングスキームであるソフトコンセプト混合(SCM)を提案する。
SCMはトレーニング中にモデルをソフト表現に公開する。
論文 参考訳(メタデータ) (2025-11-21T01:43:28Z) - Interpretability Illusions with Sparse Autoencoders: Evaluating Robustness of Concept Representations [23.993903128858832]
本研究では,SAE表現を操作するために対向的摂動が構築される現実的なシナリオを特徴とする評価フレームワークを開発する。
逆入力摂動は,ほとんどのシナリオにおいて,概念に基づく解釈を効果的に操作できることがわかった。
以上の結果から,SAEの概念表現は脆弱であり,モデル監視や監視に不適である可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-21T20:42:05Z) - Do Large Language Models Advocate for Inferentialism? [0.0]
ChatGPTやClaudeといった大規模言語モデル(LLM)の出現は、言語哲学に対する新たな課題を提示している。
本稿では,これらのシステムを理解するための代替基盤フレームワークとして,Robert Brandom氏の推論的セマンティクスについて考察する。
論文 参考訳(メタデータ) (2024-12-19T03:48:40Z) - Retrieval-Augmented Semantic Parsing: Improving Generalization with Lexical Knowledge [6.948555996661213]
本稿では,Retrieval-Augmented Semantic Parsing (RASP)を紹介する。
実験の結果,LLMはセマンティック解析において,従来のエンコーダ・デコーダベースラインよりも優れていることがわかった。
RASPはさらに、目に見えない概念を予測する能力を強化し、アウト・オブ・ディストリビューションの概念で以前のモデルのパフォーマンスをほぼ2倍にします。
論文 参考訳(メタデータ) (2024-12-13T15:30:20Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。