論文の概要: The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning
- arxiv url: http://arxiv.org/abs/2510.21067v1
- Date: Fri, 24 Oct 2025 00:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.371037
- Title: The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning
- Title(参考訳): 繁殖の処女:並列テスト時間推論における再考を避ける
- Authors: Raul Cavalcante Dinardi, Bruno Yamamoto, Anna Helena Reali Costa, Artur Jordao,
- Abstract要約: 最短解を選択するための単純かつ直感的手法は極めて有効であることを示す。
このアプローチが自己整合性などの複雑な手法と競合していることを確認する。
- 参考スコア(独自算出の注目度): 0.7874708385247352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models represent a significant advance in LLM capabilities, particularly for complex reasoning tasks such as mathematics and coding. Previous studies confirm that parallel test-time compute-sampling multiple solutions and selecting the best one-can further enhance the predictive performance of LLMs. However, strategies in this area often require complex scoring, thus increasing computational cost and complexity. In this work, we demonstrate that the simple and counterintuitive heuristic of selecting the shortest solution is highly effective. We posit that the observed effectiveness stems from models operating in two distinct regimes: a concise, confident conventional regime and a verbose overthinking regime characterized by uncertainty, and we show evidence of a critical point where the overthinking regime begins to be significant. By selecting the shortest answer, the heuristic preferentially samples from the conventional regime. We confirm that this approach is competitive with more complex methods such as self-consistency across two challenging benchmarks while significantly reducing computational overhead. The shortest-answer heuristic provides a Pareto improvement over self-consistency and applies even to tasks where output equality is not well defined.
- Abstract(参考訳): 推論モデルは、特に数学やコーディングのような複雑な推論タスクにおいて、LLM能力の大きな進歩を示している。
従来の研究では、並列テスト時間計算サンプリングの複数のソリューションが有効であり、最高の1つのソリューションを選択することで、LLMの予測性能がさらに向上することが確認されていた。
しかし、この分野の戦略はしばしば複雑なスコアリングを必要とし、計算コストと複雑さが増大する。
本研究では,最短解を選択する単純かつ直感的ヒューリスティックが極めて有効であることを示す。
観察された有効性は、簡潔で確実な従来の体制と、不確実性に特徴付けられる冗長な過渡観念的な体制という、2つの異なる体制で機能するモデルに起因していると仮定し、過越観念的な体制が重要になり始めた重要な点の証拠を示す。
最短回答を選択することで、従来の体制からのヒューリスティックなサンプルを優先的に選択する。
このアプローチは、2つの挑戦的なベンチマークにまたがる自己整合性のようなより複雑な手法と競合すると同時に、計算オーバーヘッドを大幅に削減する。
最も短い答えのヒューリスティックは、自己整合性よりもパレートの改善を提供し、出力平等が十分に定義されていないタスクにも適用される。
関連論文リスト
- Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - OptimalThinkingBench: Evaluating Over and Underthinking in LLMs [61.90251858867122]
LLMは計算量を増やし、より単純な問題を過度に考えることで、複雑なタスクを解決します。
非思考のLSMはより高速で安価ですが、より難しい推論の問題について考えています。
LLMにおける過度な考えと過小評価を共同で評価する統一ベンチマークであるOptimalThinkingBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T17:53:10Z) - Promoting Efficient Reasoning with Verifiable Stepwise Reward [7.385337642642193]
大規模推論モデル(LRM)は近年、強化学習によって支援された複雑な推論タスクにおいて大きな進歩を遂げている。
LRMは、単純な問題に対する過度な計算を過度に行い、効率を低下させることにしばしば悩まされる。
本稿では,中間状態の推論軌道における性能に基づいて報酬を割り当てる,ルールベースで検証可能なステップワイド報酬機構(VSRM)を提案する。
論文 参考訳(メタデータ) (2025-08-14T02:43:53Z) - Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.83245433138508]
大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。
彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。
本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
論文 参考訳(メタデータ) (2025-07-02T18:27:42Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。