論文の概要: DenseSteer: Steering Small Language Models towards Dense Math Reasoning
- arxiv url: http://arxiv.org/abs/2605.29247v1
- Date: Thu, 28 May 2026 02:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.589291
- Title: DenseSteer: Steering Small Language Models towards Dense Math Reasoning
- Title(参考訳): DenseSteer: Dense Math Reasoningに向けた小さな言語モデルのステアリング
- Authors: Yang Ouyang, Shuhang Lin, Jung-Eun Kim,
- Abstract要約: より熟練した推論は、より少ない推論ステップと関連するが、ステップごとの情報密度が高い。
そこで我々はDenseSteerを提案する。DenseSteerはトレーニング不要の推論時ステアリングフレームワークで、小型モデルの推論を強化する。
- 参考スコア(独自算出の注目度): 11.661448426545183
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) demonstrate strong chain-of-thought (CoT) reasoning abilities, while smaller models (<= 3B parameters) significantly underperform on multi-step reasoning tasks. Based on empirical analyses of the Qwen-2.5 model family on math reasoning benchmarks, we find that more proficient reasoning is associated with fewer reasoning steps but higher information density per step, a property we term Dense Reasoning. Motivated by this observation, we propose DenseSteer, a training-free inference-time steering framework that enhances small-model reasoning by modulating internal representations toward dense reasoning patterns. Experiments show that our method yields consistent accuracy improvements without increasing token-level Negative Log-Likelihood, highlighting dense reasoning as an effective structural approach to mathematical problem solving.
- Abstract(参考訳): 大規模言語モデル (LLM) は、多段階推論タスクにおいて、より小さなモデル (<= 3B パラメータ) が著しく過小評価されているのに対して、強力なチェーン・オブ・シークレット(CoT)推論能力を示す。
数理推論ベンチマークにおけるQwen-2.5モデルファミリーの実証分析から、より有能な推論は、より少ない推論ステップとステップごとの情報密度、すなわちDense Reasoningと呼ばれる特性と関連していることがわかった。
この観測から得られたDenseSteerは、内部表現を高密度な推論パターンに変調することで、小さなモデル推論を強化する訓練不要な推論時ステアリングフレームワークである。
実験により,本手法はトークンレベルの負対数類似度を増大させることなく一貫した精度向上を実現し,数学的問題解決に有効な構造的アプローチとして高密度推論を強調した。
関連論文リスト
- Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。
ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。
エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文 参考訳(メタデータ) (2025-12-23T02:44:25Z) - Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - Stands to Reason: Investigating the Effect of Reasoning on Idiomaticity Detection [2.8330244018167945]
大規模言語モデルにおける推論能力が慣用性検出性能にどのように影響するかを検討する。
推論の効果は,予想よりも小さく,多様であることがわかった。
より小さなモデルでは、チェーン・オブ・シンクレット(CoT)推論は、Math-tunedの中間モデルから性能を向上するが、ベースモデルのレベルには及ばない。
論文 参考訳(メタデータ) (2025-08-18T21:17:09Z) - Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。
LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。
実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。
解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文 参考訳(メタデータ) (2025-05-17T05:36:14Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。