論文の概要: I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2503.18878v1
- Date: Mon, 24 Mar 2025 16:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:12.538830
- Title: I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
- Title(参考訳): ここで全てのベースをカバーした:スパースオートエンコーダによる大規模言語モデルの推論機能
- Authors: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理において顕著な成功を収めた。
近年の進歩は、新たな推論型LSMの開発に繋がった。
オープンソースのDeepSeek-R1は、深い思考と複雑な推論を統合することで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 8.1201445044499
- License:
- Abstract: Large Language Models (LLMs) have achieved remarkable success in natural language processing. Recent advances have led to the developing of a new class of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved state-of-the-art performance by integrating deep thinking and complex reasoning. Despite these impressive capabilities, the internal reasoning mechanisms of such models remain unexplored. In this work, we employ Sparse Autoencoders (SAEs), a method to learn a sparse decomposition of latent representations of a neural network into interpretable features, to identify features that drive reasoning in the DeepSeek-R1 series of models. First, we propose an approach to extract candidate ''reasoning features'' from SAE representations. We validate these features through empirical analysis and interpretability methods, demonstrating their direct correlation with the model's reasoning abilities. Crucially, we demonstrate that steering these features systematically enhances reasoning performance, offering the first mechanistic account of reasoning in LLMs. Code available at https://github.com/AIRI-Institute/SAE-Reasoning
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理において顕著な成功を収めた。
例えば、オープンソースのDeepSeek-R1は、深い思考と複雑な推論を統合することで最先端のパフォーマンスを実現している。
このような印象的な能力にもかかわらず、そのようなモデルの内部的推論機構は未解明のままである。
本研究では,ニューラルネットワークの潜在表現を解釈可能な特徴にスパース分解する手法であるスパースオートエンコーダ(SAE)を用いて,DeepSeek-R1シリーズの推論を駆動する特徴を特定する。
まず,SAE表現から候補「推論特徴」を抽出する手法を提案する。
我々はこれらの特徴を経験的分析と解釈可能性法による検証を行い、モデルの推論能力と直接的相関を示す。
重要なことは、これらの特徴を操ることが推論性能を体系的に向上することを示し、LLMにおける推論の機械的説明を提供する。
https://github.com/AIRI-Institute/SAE-Reasoningで利用可能なコード
関連論文リスト
- AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Retrieval-Augmented Semantic Parsing: Using Large Language Models to Improve Generalization [6.948555996661213]
本稿では,Retrieval-Augmented Semantic Parsing (RASP)を紹介する。
実験の結果,LLMはセマンティック解析において,従来のエンコーダ・デコーダベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-12-13T15:30:20Z) - Thought-Like-Pro: Enhancing Reasoning of Large Language Models through Self-Driven Prolog-based Chain-of-Thought [31.964412924094656]
大規模言語モデル(LLM)は汎用アシスタントとして非常に優れた性能を示している。
多様な推論タスクにおける学習と一般化を容易にする新しい学習フレームワークTHOUGHT-LIKE-PROを導入する。
実験結果から,本手法はLLMの推論能力を大幅に向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-18T18:52:10Z) - States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly [72.24742240125369]
本稿では,チェーン・オブ・ステップ・バイ・ステップの解に頼らずに,拡張された計算列を実行する本質的な能力を明らかにする。
注目すべきは、最も先進的なモデルでは、2桁の加算結果を直接出力できることだ。
論文 参考訳(メタデータ) (2024-07-16T06:27:22Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。