論文の概要: Controllable Mathematical Reasoning via Self-Optimizing Thought Vectors
- arxiv url: http://arxiv.org/abs/2510.22132v1
- Date: Sat, 25 Oct 2025 03:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.831854
- Title: Controllable Mathematical Reasoning via Self-Optimizing Thought Vectors
- Title(参考訳): 自己最適化思考ベクトルによる制御可能な数学的推論
- Authors: Xuying LI,
- Abstract要約: エントロピー最小化を用いた自己最適化思考ベクトルを利用した制御可能な数学的推論手法を提案する。
GSM8K上のGemma-2-9Bを用いて、制御可能性スコア0.42で90.1%の精度を実現し、エントロピーに基づく報酬が集中推論パターンを効果的に導くことを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach for controllable mathematical reasoning that leverages self-optimizing thought vectors with entropy minimization. Our method introduces learnable thought vectors that dynamically modulate the internal reasoning process of large language models. Using Gemma-2-9B on GSM8K, we achieve 90.1% accuracy with a controllability score of 0.42, demonstrating that entropy-based rewards effectively guide focused reasoning patterns without requiring external reward annotations. Our analysis reveals distinct thought vector clusters and consistent low-entropy distributions across control conditions, validating our framework for controllable AI reasoning.
- Abstract(参考訳): エントロピー最小化を用いた自己最適化思考ベクトルを利用した制御可能な数学的推論手法を提案する。
本稿では,大規模言語モデルの内部推論過程を動的に変調する学習可能な思考ベクトルを提案する。
GSM8K上でGemma-2-9Bを用いることで、制御可能性スコア0.42で90.1%の精度を達成し、エントロピーベースの報酬が外部報酬アノテーションを必要とせずに集中推論パターンを効果的に導くことを示した。
我々の分析では、制御可能なAI推論のためのフレームワークを検証することにより、異なる思考ベクトルクラスタと制御条件間の一貫した低エントロピー分布を明らかにした。
関連論文リスト
- From Emergence to Control: Probing and Modulating Self-Reflection in Language Models [23.176641726866105]
自己回帰は、検証可能な報酬を伴う強化学習によって実現される強力な行動である。
自己回帰は微調整モデルに限らないことを示す。
論文 参考訳(メタデータ) (2025-06-13T20:40:13Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Deep Grey-Box Modeling With Adaptive Data-Driven Models Toward
Trustworthy Estimation of Theory-Driven Models [88.63781315038824]
本稿では,ニューラルネットワークのアーキテクチャとトレーニング目標にわずかな変化を伴って,レギュレータの動作を経験的に分析することのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T10:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。