論文の概要: ReflCtrl: Controlling LLM Reflection via Representation Engineering
- arxiv url: http://arxiv.org/abs/2512.13979v1
- Date: Tue, 16 Dec 2025 00:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.530231
- Title: ReflCtrl: Controlling LLM Reflection via Representation Engineering
- Title(参考訳): ReflCtrl:表現工学によるLDM反射の制御
- Authors: Ge Yan, Chung-En Sun, Tsui-Wei, Weng,
- Abstract要約: 我々は、表現工学のレンズを通して自己反射を研究する。
反射周波数を制御できるステップワイズステアリング法を提案する。
実験では、性能を維持しながら推論トークンの最大33.6%を節約できる。
- 参考スコア(独自算出の注目度): 6.828302913581854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with Chain-of-Thought (CoT) reasoning have achieved strong performance across diverse tasks, including mathematics, coding, and general reasoning. A distinctive ability of these reasoning models is self-reflection: the ability to review and revise previous reasoning steps. While self-reflection enhances reasoning performance, it also increases inference cost. In this work, we study self-reflection through the lens of representation engineering. We segment the model's reasoning into steps, identify the steps corresponding to reflection, and extract a reflection direction in the latent space that governs this behavior. Using this direction, we propose a stepwise steering method that can control reflection frequency. We call our framework ReflCtrl. Our experiments show that (1) in many cases reflections are redundant, especially in stronger models (in our experiments, we can save up to 33.6 percent of reasoning tokens while preserving performance), and (2) the model's reflection behavior is highly correlated with an internal uncertainty signal, implying self-reflection may be controlled by the model's uncertainty.
- Abstract(参考訳): Chain-of-Thought (CoT)推論を用いた大規模言語モデル (LLM) は、数学、コーディング、一般的な推論を含む様々なタスクにおいて高いパフォーマンスを達成している。
これらの推論モデルの独特な能力は自己回帰であり、以前の推論ステップをレビューし、修正する能力である。
自己回帰は推論性能を高めるが、推論コストも増大する。
本研究では,表現工学のレンズによる自己反射の研究を行う。
モデルの推論をステップに分割し、反射に対応するステップを特定し、この振る舞いを管理する潜在空間における反射方向を抽出する。
この方向を用いて、反射周波数を制御できるステップワイズステアリング法を提案する。
フレームワークをReflCtrlと呼びます。
実験の結果,(1) 反射は特に強いモデルでは冗長であり(実験では,性能を保ちながら推論トークンの最大33.6%を節約できる),(2) 反射の挙動は内部の不確実性信号と高い相関を持ち,自己反射はモデルの不確実性によって制御される可能性が示唆された。
関連論文リスト
- First Try Matters: Revisiting the Role of Reflection in Reasoning Models [66.39546876232512]
我々は、モデルがすでに答を生み出しているが、その出力を確定する前に反射し続ける反射行動に焦点を当てる。
分析の結果,反射はおおむね肯定的であり,モデルの初期回答を変えることは滅多にないことがわかった。
本稿では,いくつかの候補解が生成されると推論プロセスが停止し,推論時間のトークン効率を向上させる質問認識早期検索手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T14:57:10Z) - Unveiling the Latent Directions of Reflection in Large Language Models [3.396557052704669]
モデルアクティベーションにおける遅延方向レンズによる反射について検討する。
新しい反射誘導命令は体系的に識別でき、反射行動を直接強化または抑制することができる。
この研究は、大きな言語モデルにおける反射的推論の機械論的理解への道を開く。
論文 参考訳(メタデータ) (2025-08-23T11:05:15Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models [29.615519143908998]
自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。
自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。
また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
論文 参考訳(メタデータ) (2025-06-14T05:30:09Z) - From Emergence to Control: Probing and Modulating Self-Reflection in Language Models [23.176641726866105]
自己回帰は、検証可能な報酬を伴う強化学習によって実現される強力な行動である。
自己回帰は微調整モデルに限らないことを示す。
論文 参考訳(メタデータ) (2025-06-13T20:40:13Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。