論文の概要: SLIM: Subtrajectory-Level Elimination for More Effective Reasoning
- arxiv url: http://arxiv.org/abs/2508.19502v1
- Date: Wed, 27 Aug 2025 01:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.462727
- Title: SLIM: Subtrajectory-Level Elimination for More Effective Reasoning
- Title(参考訳): SLIM:より効果的な推論のためのサブトラジェクトリレベル除去
- Authors: Xifeng Yao, Chengyuan Ma, Dongyu Lang, Yinhao Ni, Zhiwei Xu, Huarui Xie, Zihao Chen, Guang Shen, Dandan Tu, Yi Bai, Changzheng Zhang,
- Abstract要約: 複雑な推論軌道を持つ微調整モデルは必ずしも最適とは限らない。
推論軌道内での最適部分軌道を同定する「5+2」フレームワークを開発した。
提案手法では, 推定において, 最適サブトラジェクタの数を25.9%削減できる。
- 参考スコア(独自算出の注目度): 11.751542939912186
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent months, substantial progress has been made in complex reasoning of Large Language Models, particularly through the application of test-time scaling. Notable examples include o1/o3/o4 series and DeepSeek-R1. When responding to a query, these models generate an extended reasoning trajectory, during which the model explores, reflects, backtracks, and self-verifies before arriving at a conclusion. However, fine-tuning models with such reasoning trajectories may not always be optimal. Our findings indicate that not all components within these reasoning trajectories contribute positively to the reasoning process; in fact, some components may affect the overall performance negatively. In this study, we divide a reasoning trajectory into individual subtrajectories and develop a "5+2" framework to: (1) systematically identify suboptimal subtrajectories within the reasoning trajectory based on five human-established criteria; (2) assess the independence of the suboptimal subtrajectories identified in (1) from the subsequent content, ensuring that their elimination does not compromise overall flow and coherence of the reasoning process. Additionally, a sampling algorithm, built upon the "5+2" framework, is employed to select data whose reasoning process is free from suboptimal subtrajectories to the highest degree. Experimental results demonstrate that our method can reduce the number of suboptimal subtrajectories by 25.9\% during the inference. Furthermore, our method achieves an average accuracy of 58.92\% on highly challenging math benchmarks with only two thirds of training data, surpassing the average accuracy of 58.06\% achieved with the entire data, and outperforming open-source datasets, when fine-tuning Qwen2.5-Math-7B. Finally, We validated our method under resource constraints and observed improved performance across various inference token limits.
- Abstract(参考訳): 近年、特にテスト時間スケーリングの適用を通じて、大規模言語モデルの複雑な推論において、かなりの進歩を遂げている。
有名な例としては、o1/o3/o4シリーズやDeepSeek-R1がある。
クエリに応答すると、これらのモデルは拡張された推論軌道を生成し、モデルが結論に達する前に、リフレクション、バックトラック、自己検証を行う。
しかし、そのような推論軌道を持つ微調整モデルは必ずしも最適とは限らない。
以上より, 推理軌道内の全ての成分が推理過程に肯定的に寄与するわけではないことが示唆された。
本研究では,各サブトラジェクトリを個別のサブトラジェクトリに分割し,(1)人間の確立した5つの基準に基づいて,推論トラジェクトリ内の最適サブトラジェクトリを系統的に同定し,(2)(1)から同定した最適サブトラジェクトリの独立性を評価し,その除去が推論プロセス全体のフローとコヒーレンスを損なうことのないよう,"5+2"フレームワークを開発する。
さらに、"5+2"フレームワーク上に構築されたサンプリングアルゴリズムを使用して、最適なサブトラジェクトリから最も高いレベルまで推論プロセスが自由なデータを選択する。
実験の結果,提案手法は推定時に最適下線量を25.9%削減できることがわかった。
さらに,Qwen2.5-Math-7Bを微調整した場合,トレーニングデータの3分の2に過ぎず,その平均精度は58.06\%を超え,オープンソースデータセットよりも優れていた。
最後に,提案手法を資源制約下で検証し,各種の推論トークン制限にまたがる性能改善を観察した。
関連論文リスト
- Beyond Scaling Law: A Data-Efficient Distillation Framework for Reasoning [10.186434946738201]
大規模言語モデル(LLM)は、アルゴリズムコーディングや数学的問題解決といったタスクにおいて顕著な推論能力を示す。
近年の手法では,強化学習と教師付き微調整を組み合わせた多段階学習による推論が改良されている。
論文 参考訳(メタデータ) (2025-08-13T15:32:25Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning [21.70706473875226]
本稿では,2段階のフレームワークであるReinforcement Distillation (REDI)を提案する。
Supervised Fine-Tuning (SFT) による正のトレースから学ぶステージ1
ステージ2は、提案したREDI目標を通じて、正と負の両方のトレースを用いてモデルをさらに洗練する。
DPO/SimPOを併用したベースラインリジェクションサンプリングSFTやSFTよりもREDIが優れていることを示す実験的検討を行った。
論文 参考訳(メタデータ) (2025-05-30T17:47:17Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Scaling Reasoning can Improve Factuality in Large Language Models [7.184302333801519]
複雑なオープンドメイン質問応答(QA)シナリオにおいて,大規模言語モデル(LLM)の推論を徹底的に検討する。
推論トレースを豊かにするために、我々は知識グラフからの事実情報を、推論トレースへの経路の形で導入する。
本研究は,1回の動作において,より小さな推論モデルにより,従来の命令調整モデルと比較して,実際の精度が顕著に向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-16T11:39:33Z) - When Neural Code Completion Models Size up the Situation: Attaining
Cheaper and Faster Completion through Dynamic Model Inference [11.704110756342212]
本稿では,コード補完モデルに適した動的推論手法を提案する。
モデル内の16層のうち1.7層を平均スキップすることができ、11.2%のスピードアップとROUGE-Lの限界1.1%の削減に繋がった。
論文 参考訳(メタデータ) (2024-01-18T13:26:53Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。