論文の概要: Understanding Reasoning in Thinking Language Models via Steering Vectors
- arxiv url: http://arxiv.org/abs/2506.18167v2
- Date: Tue, 24 Jun 2025 01:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 13:29:37.727676
- Title: Understanding Reasoning in Thinking Language Models via Steering Vectors
- Title(参考訳): ステアリングベクトルを用いた言語モデルにおける推論の理解
- Authors: Constantin Venhoff, Iván Arcuschin, Philip Torr, Arthur Conmy, Neel Nanda,
- Abstract要約: 我々はDeepSeek-R1-Distillモデルにおいて、特定の推論動作を分析し、操作する。
これらの挙動はモデルの活性化空間における線形方向によって媒介され、ステアリングベクトルを用いて制御できることを実証する。
提案手法は,思考モデルにおける推論過程を制御的かつ解釈可能な方法で操る実用的なツールを提供する。
- 参考スコア(独自算出の注目度): 9.417134634193074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have led to the development of thinking language models that generate extensive internal reasoning chains before producing responses. While these models achieve improved performance, controlling their reasoning processes remains challenging. This work presents a steering approach for thinking LLMs by analyzing and manipulating specific reasoning behaviors in DeepSeek-R1-Distill models. Through a systematic experiment on 500 tasks across 10 diverse categories, we identify several reasoning behaviors exhibited by thinking models, including expressing uncertainty, generating examples for hypothesis validation, and backtracking in reasoning chains. We demonstrate that these behaviors are mediated by linear directions in the model's activation space and can be controlled using steering vectors. By extracting and applying these vectors, we provide a method to modulate specific aspects of the model's reasoning process, such as its tendency to backtrack or express uncertainty. Our approach offers practical tools for steering reasoning processes in thinking models in a controlled and interpretable manner. We validate our steering method using three DeepSeek-R1-Distill models, demonstrating consistent control across different model architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、応答を生成する前に広範囲な内部推論連鎖を生成する思考言語モデルの開発につながっている。
これらのモデルでは性能が向上する一方、推論プロセスの制御は依然として困難である。
本研究は,DeepSeek-R1-Distillモデルにおいて,特定の推論挙動を解析・操作することにより,LLMの思考のためのステアリング手法を提案する。
10の多様なカテゴリにわたる500のタスクの体系的な実験を通じて、不確実性を表現すること、仮説検証の例を生成すること、推論チェーンにおけるバックトラッキングなど、思考モデルによって示されるいくつかの推論行動を特定する。
これらの挙動はモデルの活性化空間における線形方向によって媒介され、ステアリングベクトルを用いて制御できることを実証する。
これらのベクトルを抽出して適用することにより、モデルの推論プロセスの特定の側面、例えば、バックトラックや不確実性を表現する傾向を調節する方法を提供する。
提案手法は,思考モデルにおける推論過程を制御的かつ解釈可能な方法で操る実用的なツールを提供する。
我々は3つのDeepSeek-R1-Distillモデルを用いて、異なるモデルアーキテクチャ間で一貫した制御を示す。
関連論文リスト
- ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。
本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。
3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2025-05-18T08:55:46Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。
本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。
このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文 参考訳(メタデータ) (2025-05-15T11:31:02Z) - Improving Reasoning Performance in Large Language Models via Representation Engineering [2.0099933815960256]
大規模言語モデル(LLM)の表現工学的アプローチを提案する。
モデルアクティベーションは、推論タスクを処理する際にLLMの残ストリームから読み込まれる。
LLMは、ある程度に、アクティベーションを調節することで、認識された推論能力を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-04-28T04:58:43Z) - Towards Understanding Distilled Reasoning Models: A Representational Approach [6.563993791037387]
我々は、Qwen系列モデルとその微調整された変種についてクロスコーダを訓練する。
この結果から,クロスコーダは自己回帰や検証など,多種多様な推論に対応する特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2025-03-05T18:40:19Z) - Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning [9.795934690403374]
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。
回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。
提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
論文 参考訳(メタデータ) (2025-02-13T07:19:05Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。