論文の概要: Inference Time Optimization with Confidence Dynamics
- arxiv url: http://arxiv.org/abs/2605.25244v1
- Date: Sun, 24 May 2026 20:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.041898
- Title: Inference Time Optimization with Confidence Dynamics
- Title(参考訳): 信頼度ダイナミクスを用いた推論時間最適化
- Authors: Yu Wang, Minghao Liu, Jiayun Wang, Jinrui Huang, Ankit Shah, Wei Wei,
- Abstract要約: 正しい回答の痕跡は時間とともに信頼性の向上を示す傾向を示し、誤った回答の痕跡は推論が進むにつれて弱まるか、信頼が低下することを示している。
本稿では,信頼度動的利得(CDG)に基づく投票法を提案する。
- 参考スコア(独自算出の注目度): 12.846537754659954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference time optimization techniques, such as repeated sampling, have significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, the critical role of model uncertainty remains largely underexplored in these optimization strategies. In this paper, we investigate the dynamics of confidence along reasoning trajectories and for first time reveal a surprising and unique pattern: correct answer traces tend to exhibit confidence improvement over time (positive confidence gain), while incorrect traces show attenuated or declining confidence as reasoning proceeds. Based on this observation, we propose Confidence Dynamic Gain (CDG) based voting, which incorporates how the confidence trajectory of the response evolves along the reasoning chain. Experiments across four open-source architectures (DeepSeek-R1, gpt-oss, Gemma-3, Qwen-QwQ) on the AIME24/25, HMMT25, and BRUMO25 benchmarks demonstrate that CDG yields a significant performance boost over baselines. These results demonstrate that our method provides a robust discriminative signal for improving answer selection in LLM reasoning. We also provide theoretical insights for this phenomenon. Code will be released at https://github.com/Accenture/CDG.git.
- Abstract(参考訳): 繰り返しサンプリングなどの推論時間最適化手法は,Large Language Models (LLM) の推論能力を大幅に向上させた。
しかし、モデル不確実性の重要な役割は、これらの最適化戦略においてほとんど解明されていない。
本稿では,仮説の軌道に沿った信頼のダイナミクスを考察し,まず,意外でユニークなパターンを初めて明らかにする:正解のトレースは時間とともに信頼性が向上する傾向にあり(正解のゲイン),不正確なトレースは推論の進行に伴って減衰または低下する。
本研究は,信頼性動的利得(CDG)に基づく投票法を提案する。
AIME24/25、HMMT25、BRUMO25の4つのオープンソースアーキテクチャ(DeepSeek-R1、gpt-oss、Gemma-3、Qwen-QwQ)での実験では、CDGがベースラインよりも大幅なパフォーマンス向上をもたらすことが示されている。
これらの結果から,本手法はLLM推論における解選択を改善するための堅牢な識別信号を提供することが示された。
この現象に関する理論的洞察も提供する。
コードはhttps://github.com/Accenture/CDG.git.comでリリースされる。
関連論文リスト
- Understanding and Mitigating Premature Confidence for Better LLM Reasoning [76.16007941549857]
現在の言語モデルからの思考の長い連鎖(CoT)は、しばしば論理的ギャップと不正な跳躍を含んでいる。
このような信号は、モデルの信頼性が推論中にどのように進化するかを示す。
これは、モデルを早期にコミットするのではなく、理由によってモデルの信頼性を更新するように訓練する強化学習の目標です。
論文 参考訳(メタデータ) (2026-05-23T04:42:45Z) - Confidence-Aware Alignment Makes Reasoning LLMs More Reliable [65.44962502963378]
CASPOは、トークンレベルの信頼度とステップワイドな論理的正しさを、個別の報酬モデルをトレーニングせずに整合させるフレームワークである。
推論中、信頼を意識した思考(CaT)を提案し、不確実な推論枝を無視可能なO(V)レイテンシで動的に生成する。
10のベンチマークと複数のモデルファミリでの実験では、CASPOは推論の信頼性と推論効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-08T07:08:25Z) - Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。
R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。
R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-03-02T17:20:10Z) - GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。