論文の概要: Entropy-Guided Loop: Achieving Reasoning through Uncertainty-Aware Generation
- arxiv url: http://arxiv.org/abs/2509.00079v1
- Date: Tue, 26 Aug 2025 22:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.057667
- Title: Entropy-Guided Loop: Achieving Reasoning through Uncertainty-Aware Generation
- Title(参考訳): エントロピー誘導ループ:不確実性認識生成による推論の実現
- Authors: Andrew G. A. Correa, Ana C. H de Matos,
- Abstract要約: entropy-guided refinementは、トークンレベルの不確実性を使用して、1つのターゲットのリファインメントパスをトリガーする軽量なテスト時間ループである。
この不確実性認識ループは,シングルパス推論と高価な推論チェーンの中間点として有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning models often outperform smaller models but at 3--5$\times$ higher cost and added latency. We present entropy-guided refinement: a lightweight, test-time loop that uses token-level uncertainty to trigger a single, targeted refinement pass. We extract logprobs, compute Shannon entropy on top-$k$ alternatives, and apply a simple OR-logic trigger over perplexity, maximum token entropy, and low-confidence-token count. Unlike approaches that use entropy only for measurement or decoding, we pass a compact uncertainty report (tokens, confidences, alternatives, context) back to the model to guide corrective edits. On representative technical queries across reasoning, mathematics, and code generation tasks, a small model with our loop approaches 95\% of a reference reasoning model's quality at approximately one-third of the cost. The method achieves selective refinement on ~31\% of responses while improving accuracy by 16 percentage points over single-pass inference. We demonstrate that this uncertainty-aware loop provides an effective middle ground between single-pass inference and expensive reasoning chains, making it practical for production deployments where both quality and cost matter.
- Abstract(参考訳): 推論モデルは、しばしばより小さなモデルより優れるが、3~5ドル(約3,500円)高いコストと追加のレイテンシがある。
トークンレベルの不確実性を利用して、目標とする1つの改良パスをトリガーする、軽量でテスト時間のループであるエントロピー誘導リファインメント(entropy-guided refinement)を提案する。
我々は、logprobsを抽出し、Shannon entropy on top-k$の代替品を計算し、単純なOR-logic trigger over perplexity, maximum token entropy, low-confidence-token countを適用する。
エントロピーを計測や復号にのみ使用するアプローチとは異なり、コンパクトな不確実性レポート(トークン、信頼、代替案、コンテキスト)をモデルに戻して修正編集を導く。
推論、数学、コード生成タスクにまたがる代表的な技術的クエリについて、ループを持つ小さなモデルは、参照推論モデルの品質を約3分の1のコストで95%に近づきます。
この手法は, 応答の約31\%を選択的に改善し, シングルパス推定よりも精度を16ポイント向上する。
我々は,この不確実性認識ループがシングルパス推論と高価な推論チェーンの中間点として有効であることを示し,品質とコストの両面において実用的であることを示した。
関連論文リスト
- LLMs are Bayesian, in Expectation, not in Realization [0.0]
大きな言語モデルはパラメータを更新せずに新しいタスクに適応する。
最近の経験的発見は根本的な矛盾を示しており、変圧器はマルティンゲールの性質を体系的に侵害している。
この違反は、臨界応用における不確実性定量化の基礎となる理論的基礎に挑戦する。
論文 参考訳(メタデータ) (2025-07-15T22:20:11Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Improved Convergence of Score-Based Diffusion Models via Prediction-Correction [15.772322871598085]
スコアベース生成モデル(SGM)は、複雑なデータ分布からサンプリングする強力なツールである。
本稿では,一般的な予測器・相関器方式のバージョンを考慮し,この問題に対処する。
まず、不正確なランゲヴィン力学を用いて最終分布を推定し、次にその過程を逆転する。
論文 参考訳(メタデータ) (2023-05-23T15:29:09Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。