論文の概要: Batch Prompting Suppresses Overthinking Reasoning Under Constraint: How Batch Prompting Suppresses Overthinking in Reasoning Models
- arxiv url: http://arxiv.org/abs/2511.04108v1
- Date: Thu, 06 Nov 2025 06:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.332808
- Title: Batch Prompting Suppresses Overthinking Reasoning Under Constraint: How Batch Prompting Suppresses Overthinking in Reasoning Models
- Title(参考訳): Batch Prompting Suppressing Overthinking Reasoning under Constraint: How Batch Prompting Suppressing Overthinking in Reasoning Models
- Authors: Wenmo Qiu, Saurabh Srivastava,
- Abstract要約: 我々は,Large Reasoning Models (LRMs) の多段階推論におけるモデル挙動を規則化することを示した。
我々は、13の多様なベンチマークを総合的に調査し、トークンの使用理由を著しく減らしながら精度を向上する観察を行った。
驚くべきことに、バッチ推論における創発的な集団効果も観察する:モデルは、しばしば以前の例からパターンを一般化して、難しいものを解決する。
- 参考スコア(独自算出の注目度): 5.408799241182959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has explored batch prompting as a strategy to amortize inference cost in large language models (LLMs). In this paper, we show that batching offers an additional, underappreciated benefit: it regularizes model behavior during multi-step reasoning for Large Reasoning Models (LRMs). We conduct a comprehensive study across 13 diverse benchmarks and observe that batching improves accuracy while substantially reducing reasoning token usage, often by 3x-5x. Through detailed behavioral analysis, we find that batching suppresses overthinking, reduces hedging language (e.g., repetitive self-corrections), and encourages more decisive answers. Surprisingly, we also observe emergent collective effects in batched inference: models often generalize patterns from earlier examples to solve harder ones in the same batch. These findings position batching not just as a throughput optimization, but as a powerful inference-time regularizer for more efficient and reliable LLM reasoning.
- Abstract(参考訳): 最近の研究は、大規模言語モデル(LLM)の推論コストを抑える戦略としてバッチプロンプトを探求している。
本稿では, 大規模推論モデル (LRM) の多段階推論において, モデル挙動を正規化することにより, バッチ処理が付加的かつ不適切な利点をもたらすことを示す。
我々は13の多様なベンチマークを総合的に調査し、バッチ処理が精度を向上し、しばしば3x-5xの推論トークンの使用量が大幅に削減されるのを観察する。
詳細な行動分析により、バッチ処理は過度な考えを抑え、ヘッジ言語(例えば、反復的な自己補正)を減らし、より決定的な回答を促すことが分かる。
モデルは、しばしば以前の例からパターンを一般化して、同じバッチで難しいパターンを解く。
これらの結果はスループット最適化だけでなく、より効率的で信頼性の高いLCM推論のための強力な推論時正規化器として位置づけられた。
関連論文リスト
- Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models [28.90035967715762]
RLLM(Reasoning large language model)は、最近、構造化および多段階推論を実行することで、顕著な機能を示した。
バッチ処理から単一問合せ推論へのリソース競合の利点を伝達する新しい手法であるDRQA(Dynamic Reasoning Quota Allocation)を提案する。
論文 参考訳(メタデータ) (2025-08-25T08:47:36Z) - Stands to Reason: Investigating the Effect of Reasoning on Idiomaticity Detection [2.8330244018167945]
大規模言語モデルにおける推論能力が慣用性検出性能にどのように影響するかを検討する。
推論の効果は,予想よりも小さく,多様であることがわかった。
より小さなモデルでは、チェーン・オブ・シンクレット(CoT)推論は、Math-tunedの中間モデルから性能を向上するが、ベースモデルのレベルには及ばない。
論文 参考訳(メタデータ) (2025-08-18T21:17:09Z) - AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking [38.8730008545358]
大規模言語モデル(LLM)は、しばしばその推論に頑健さを欠いている。
このアプローチは、推論の問題に重点を置いています。
この抽象化プロセスは、単に教師付き微調整よりも強化学習(RL)によりより良く得られる。
論文 参考訳(メタデータ) (2025-06-09T13:34:50Z) - Does Thinking More always Help? Mirage of Test-Time Scaling in Reasoning Models [130.5487886246353]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。