論文の概要: Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2604.02322v1
- Date: Thu, 02 Apr 2026 17:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.9898
- Title: Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning
- Title(参考訳): Batched Contextual Reinforcement: 効率的な推論のためのタスクスケーリング法
- Authors: Bangji Yang, Hongbo Ma, Jiajun Fan, Ge Liu,
- Abstract要約: Batched ConThought Reinforcementは、効率的な推論を解放する、最小限のシングルステージトレーニングパラダイムである。
BCRはトークンの使用量を15.8%減らして62.6%に削減し、精度を継続的に維持または改善することを示した。
これらの結果はBCRの実践性を証明し、大規模言語モデルにおける潜在高密度推論の単純な構造インセンティブを示す。
- 参考スコア(独自算出の注目度): 11.094089165730383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models employing Chain-of-Thought reasoning achieve strong performance but suffer from excessive token consumption that inflates inference costs. Existing efficiency methods such as explicit length penalties, difficulty estimators, or multi-stage curricula either degrade reasoning quality or require complex training pipelines. We introduce Batched Contextual Reinforcement, a minimalist, single-stage training paradigm that unlocks efficient reasoning through a simple structural modification: training the model to solve N problems simultaneously within a shared context window, rewarded purely by per-instance accuracy. This formulation creates an implicit token budget that yields several key findings: (1) We identify a novel task-scaling law: as the number of concurrent problems N increases during inference, per-problem token usage decreases monotonically while accuracy degrades far more gracefully than baselines, establishing N as a controllable throughput dimension. (2) BCR challenges the traditional accuracy-efficiency trade-off by demonstrating a "free lunch" phenomenon at standard single-problem inference. Across both 1.5B and 4B model families, BCR reduces token usage by 15.8% to 62.6% while consistently maintaining or improving accuracy across five major mathematical benchmarks. (3) Qualitative analyses reveal emergent self-regulated efficiency, where models autonomously eliminate redundant metacognitive loops without explicit length supervision. (4) Crucially, we empirically demonstrate that implicit budget constraints successfully circumvent the adversarial gradients and catastrophic optimization collapse inherent to explicit length penalties, offering a highly stable, constraint-based alternative for length control. These results prove BCR practical, showing simple structural incentives unlock latent high-density reasoning in LLMs.
- Abstract(参考訳): Chain-of-Thoughtを用いた大規模言語モデルは、高いパフォーマンスを実現するが、推論コストを膨らませる過剰なトークン消費に悩まされる。
明示的な長さのペナルティ、難易度推定器、多段キュリキュラなどの既存の効率の手法は推論品質を劣化させるか、複雑な訓練パイプラインを必要とする。
Batched Contextual Reinforcementは、最小限の単一ステージのトレーニングパラダイムで、単純な構造的修正によって効率的な推論を解放する。
この定式化によって暗黙のトークン予算が作成され、(1)新しいタスクスケーリング法則が特定される: 推論中にNが増加すると、プロブレム当たりのトークン使用量は単調に減少し、精度はベースラインよりもはるかに低下し、Nを制御可能なスループットの次元として確立する。
2)BCRは,標準の単一確率推論で「フリーランチ」現象を示すことによって,従来の精度・効率トレードオフに挑戦する。
1.5Bモデルと4Bモデルの両方で、BCRはトークンの使用量を15.8%から62.6%に削減し、主要な5つのベンチマークの精度を継続的に維持または改善している。
3) 定性的分析により, 自覚的自己制御効率が明らかとなり, モデルでは, 自覚的でない余分なメタ認知ループを, 明示的な長さの監督なしに自律的に除去する。
(4) 暗黙の予算制約は, 厳密な長さのペナルティに固有の逆勾配や破滅的な最適化の崩壊を回避し, 高度に安定な制約に基づく長さ制御の代替手段を提供することを実証的に実証した。
これらの結果は, 単純構造インセンティブがLLMの潜在高密度推論を解き放つことを示し, BCRが実用的であることを証明している。
関連論文リスト
- Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs [3.0215547730060206]
AdaAnchorは、入力にアタッチされた潜在アンカーベクトルのセットを精算することにより、サイレント反復計算を行う潜在推論フレームワークである。
適応停止したAdaAnchorは、固定ステップの潜伏精錬で最大5%の精度向上を達成し、最大ステップの予算で平均潜伏精錬歩数を48〜60%削減する。
論文 参考訳(メタデータ) (2026-03-16T10:06:05Z) - Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation [14.501114943020589]
大規模推論モデル(LRM)は、拡張された推論トレースを通じて強力な性能を達成する。
LRMは低複雑さのクエリに対して過度な振る舞いを示すことが多い。
LRMにおける安定的適応的思考のための2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T02:49:36Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - EntroCut: Entropy-Guided Adaptive Truncation for Efficient Chain-of-Thought Reasoning in Small-scale Large Reasoning Models [42.49934375597466]
大規模推論モデル(LRM)は、拡張連鎖生成による複雑な推論タスクに優れる。
初期の推論ステップにおけるモデル出力分布のエントロピーは、正しい推論と間違った推論とを確実に区別する。
本研究では,高信頼状態を特定することによって推論を動的に切り離す訓練自由度手法であるEntroCutを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:19:16Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs [18.427352953242792]
SwiReasoningは、大規模言語モデル(LLM)推論のためのトレーニング不要のフレームワークである。
次点分布のエントロピー傾向から推定されるブロックワイド信頼によって導かれる明示的推論と潜在的推論を切り替える。
平均精度を1.5%-2.8%改善し、異なるモデルファミリーとスケールのLCMを推論する。
論文 参考訳(メタデータ) (2025-10-06T17:46:34Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。