論文の概要: Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2510.05987v1
- Date: Tue, 07 Oct 2025 14:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.292345
- Title: Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs
- Title(参考訳): LLMにおけるより優れた推論のための正当性第一復号法
- Authors: Xueyan Li, Guinan Su, Mrinmaya Sachan, Jonas Geiping,
- Abstract要約: 我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
- 参考スコア(独自算出の注目度): 72.82403830490084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly applied to complex tasks that require extended reasoning. In such settings, models often benefit from diverse chains-of-thought to arrive at multiple candidate solutions. This requires two competing objectives: to inject enough stochasticity to explore multiple reasoning chains, and to ensure sufficient accuracy and quality in each path. Existing works pursue the first objective by increasing exploration at highly uncertain steps with higher temperature or larger candidate token sets, while others improve reliability by rejecting samples with low confidence post-generation, implying that low confidence correlates with low answer quality. These two lines of thought are in conflict, as they conflate different sources of uncertainty. To resolve this, we argue that the decoding rule should be calibrated by correctness, not confidence alone. We should sample from tokens with higher estimated correctness, and reduce sampling where expected correctness is low. We propose simple strategies that achieve this goal: Greedy-Threshold makes sampling greedy at very low confidence steps. Calibrated-TopK and Calibrated-epsilon set truncation threshold based on estimated rank-wise correctness. Together, our findings challenge prevailing heuristics about decoding under uncertainty and show gains across math and general reasoning benchmarks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、拡張推論を必要とする複雑なタスクにますます適用されています。
このような設定では、モデルは多種多様なチェーンの恩恵を受け、複数の候補ソリューションに到達する。
これは、複数の推論連鎖を探索するのに十分な確率性を注入し、各経路で十分な精度と品質を確保するという、2つの競合する目標を必要とする。
既存の研究は、高い温度またはより大きな候補トークンセットを持つ非常に不確実なステップでの探索を増やすことで最初の目的を追求し、他の研究は信頼性の低いサンプルを拒絶することで信頼性を高め、低い信頼性が低い応答品質と相関することを示唆している。
これら2つの考えは、異なる不確実性の源を詳述するため、対立している。
これを解決するために、復号法は正確さによって校正されるべきであり、自信だけではならないと論じる。
推定精度の高いトークンからサンプリングし,期待精度が低い場合にはサンプリングを削減すべきである。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
Calibrated-TopK and Calibrated-epsilon set truncation threshold based based on estimated rank-wise correctness。
そこで本研究では,不確実性の下での復号化に関するヒューリスティックスに挑戦し,数学や一般推論のベンチマークで有意な進歩を示した。
関連論文リスト
- Cautious Next Token Prediction [62.74127603725369]
我々は、CNTP(Cautious Next Token Prediction)と呼ばれる新しいトレーニングフリーデコード戦略を提案する。
復号過程において、モデルが特定のステップで比較的高い予測エントロピーを持つ場合、独立にステップから始まる複数の試行をサンプリングし、句読点に遭遇する際に停止する。
提案するCNTPアプローチは,既存の標準復号方式よりも明確なマージンで一貫した性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-07-03T05:49:18Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers [13.823743787003787]
近年の研究では、推論スケーリングにより、より弱い言語モデルがより強力なモデルの精度に適合または超えることを期待している。
より弱いモデルの推論スケーリングの量は、十分に強いモデルの単一サンプル精度に匹敵することができないことを示す。
また、精度以上の偽陽性には、コーディングスタイルの慣行への順守の欠如など、他の望ましくない性質があることも示している。
論文 参考訳(メタデータ) (2024-11-26T15:13:06Z) - Optimal Cross-Validation for Sparse Linear Regression [5.156484100374059]
線形回帰器のスパーシリティとロバスト性を選択するためにk-foldクロスバリデーションを用いる。
クロスバリデーションはスパース回帰の計算コストを大幅に増大させる。
混合整数最適化問題を50~80%削減することで、この状況を改善する。
論文 参考訳(メタデータ) (2023-06-26T17:02:45Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。