論文の概要: The Art of Efficient Reasoning: Data, Reward, and Optimization
- arxiv url: http://arxiv.org/abs/2602.20945v2
- Date: Wed, 25 Feb 2026 09:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 13:37:25.577129
- Title: The Art of Efficient Reasoning: Data, Reward, and Optimization
- Title(参考訳): 効率的な推論技術:データ、リワード、最適化
- Authors: Taiqiang Wu, Zenan Xu, Bo Zhou, Ngai Wong,
- Abstract要約: 大規模言語モデル(LLM)は、スケールしたChain-of-Thought(CoT)推論の恩恵を受けるが、計算オーバーヘッドも重い。
効率的な推論は、短くて正確な思考軌道のインセンティブを、典型的には強化学習(RL)による報酬形成によって達成することを目的としている
統一されたプロトコルで広範な実験(約0.2万GPU時間)を行い、トレーニングプロンプトとロールアウト、報酬形成、最適化戦略をデコンストラクションします。
- 参考スコア(独自算出の注目度): 20.542546956993363
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、スケールしたChain-of-Thought(CoT)推論から一貫して恩恵を受けるが、計算オーバーヘッドも重い。
この問題に対処するために、効率的な推論は、短くて正確な思考軌道を、典型的には強化学習(RL)による報酬形成によって動機付けることを目的としている。
本稿では,LLMの効率的な推論の仕組みを体系的に検討する。
包括的評価のために,2kから32kまでの幅広いトークン予算にまたがる,正確さと性能を条件とした長さ分布を含む,よりきめ細かい指標を提案する。
まず、トレーニングプロセスが2段階のパラダイムである長さ適応と推論の洗練に従うことを明らかにする。
その後、統一されたプロトコルで広範な実験を行い(約0.2万GPU時間)、トレーニングプロンプトとロールアウト、報酬形成、最適化戦略をデコンストラクションします。
特に重要な発見は、比較的簡単なプロンプトで訓練し、正の報酬信号の密度を確実にし、したがって長さの崩壊を避けることである。
一方、学習した長さバイアスはドメイン間で一般化することができる。
すべての知見を価値ある洞察と実践的ガイドラインに抽出し、さらに0.6Bから30BまでのQwen3シリーズで検証し、ロバスト性と一般化を実証した。
関連論文リスト
- Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-08-12T13:48:03Z) - AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。