Fugu-MT 論文翻訳(概要): The Art of Efficient Reasoning: Data, Reward, and Optimization

論文の概要: The Art of Efficient Reasoning: Data, Reward, and Optimization

arxiv url: http://arxiv.org/abs/2602.20945v2
Date: Wed, 25 Feb 2026 09:40:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 13:37:25.577129
Title: The Art of Efficient Reasoning: Data, Reward, and Optimization
Title（参考訳）: 効率的な推論技術:データ、リワード、最適化
Authors: Taiqiang Wu, Zenan Xu, Bo Zhou, Ngai Wong,
Abstract要約: 大規模言語モデル(LLM)は、スケールしたChain-of-Thought(CoT)推論の恩恵を受けるが、計算オーバーヘッドも重い。効率的な推論は、短くて正確な思考軌道のインセンティブを、典型的には強化学習(RL)による報酬形成によって達成することを目的としている統一されたプロトコルで広範な実験(約0.2万GPU時間)を行い、トレーニングプロンプトとロールアウト、報酬形成、最適化戦略をデコンストラクションします。
参考スコア（独自算出の注目度）: 20.542546956993363
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.
Abstract（参考訳）: 大規模言語モデル(LLM)は、スケールしたChain-of-Thought(CoT)推論から一貫して恩恵を受けるが、計算オーバーヘッドも重い。この問題に対処するために、効率的な推論は、短くて正確な思考軌道を、典型的には強化学習(RL)による報酬形成によって動機付けることを目的としている。本稿では,LLMの効率的な推論の仕組みを体系的に検討する。包括的評価のために,2kから32kまでの幅広いトークン予算にまたがる,正確さと性能を条件とした長さ分布を含む,よりきめ細かい指標を提案する。まず、トレーニングプロセスが2段階のパラダイムである長さ適応と推論の洗練に従うことを明らかにする。その後、統一されたプロトコルで広範な実験を行い(約0.2万GPU時間)、トレーニングプロンプトとロールアウト、報酬形成、最適化戦略をデコンストラクションします。特に重要な発見は、比較的簡単なプロンプトで訓練し、正の報酬信号の密度を確実にし、したがって長さの崩壊を避けることである。一方、学習した長さバイアスはドメイン間で一般化することができる。すべての知見を価値ある洞察と実践的ガイドラインに抽出し、さらに0.6Bから30BまでのQwen3シリーズで検証し、ロバスト性と一般化を実証した。

関連論文リスト

On-Policy Supervised Fine-Tuning for Efficient Reasoning [27.67711115864118]
大規模推論モデル(LRM)は、長い連鎖推論を探索するために強化学習(RL)を用いて訓練されることが多い。近年の手法では, 正確さと簡潔さを両立させるため, マルチリワード目的を付加しているが, これらの複雑な拡張はトレーニングを不安定にし, 準最適トレードオフをもたらすことが多い。従来の精度を維持しつつ,CoT長を最大80まで短縮する簡易なSFTトレーニング戦略を提案する。
論文参考訳（メタデータ） (2026-02-13T19:16:39Z)
From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。このようにして、RLVRRは報酬を2つの次元に分解する。
論文参考訳（メタデータ） (2026-01-26T14:39:58Z)
DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文参考訳（メタデータ） (2025-11-01T17:41:28Z)
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。 DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文参考訳（メタデータ） (2025-10-16T20:05:57Z)
Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。 GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文参考訳（メタデータ） (2025-08-12T13:48:03Z)
AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文参考訳（メタデータ） (2025-06-25T06:29:18Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-05-21T15:03:26Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。