論文の概要: CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute
- arxiv url: http://arxiv.org/abs/2602.08948v1
- Date: Mon, 09 Feb 2026 17:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.405147
- Title: CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute
- Title(参考訳): CoRefine: アダプティブテストタイムコンピューティングのための信頼誘導型セルフリファインメント
- Authors: Chen Jin, Ryutaro Tanno, Tom Diethe, Philip Teare,
- Abstract要約: CoRefineは、トークンのごく一部を使って競争精度を達成する自信誘導型自己精製法である。
コントローラはフルトレースの信頼性を消費し、停止するか、再検査するか、あるいは別のアプローチを試すかを決定する。
これをCoRefine-Treeに拡張します。これは、探索とエクスプロイトを適応的にバランスさせる、ハイブリッドなシーケンシャル並列型です。
- 参考スコア(独自算出の注目度): 10.548368675645403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often rely on test-time scaling via parallel decoding (for example, 512 samples) to boost reasoning accuracy, but this incurs substantial compute. We introduce CoRefine, a confidence-guided self-refinement method that achieves competitive accuracy using a fraction of the tokens via a lightweight 211k-parameter Conv1D controller atop a frozen LLM. The controller consumes full-trace confidence to decide whether to halt, re-examine, or try a different approach, enabling targeted self-correction with an average of 2.7 refinement steps per problem and roughly 190-fold token reduction relative to 512-sample baselines. Across diverse reasoning benchmarks and three open-source models, the controller achieves 92.6 percent precision when it confidently halts, indicating that confidence dynamics reliably signal correctness without ground-truth verification. We extend this to CoRefine-Tree, a hybrid sequential-parallel variant that adaptively balances exploration and exploitation, with easy serving integration and verifier compatibility. By treating confidence as a control signal rather than a correctness guarantee, CoRefine provides a modular primitive for scalable reasoning and agentic settings with imperfect verifiers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論の精度を高めるために、並列デコード(例:512サンプル)によるテスト時間スケーリングに依存することが多いが、これはかなりの計算量を必要とする。
冷凍LDM上の軽量211kパラメータ Conv1D コントローラを介して,トークンのごく一部を用いて,競争精度を向上する自信誘導型自己精製法であるCoRefineを導入する。
コントローラはフルトレースの信頼度を使い、停止するか、再検査するか、別のアプローチを試すかを決め、問題ごとの平均2.7ステップの自己補正と512サンプルのベースラインに対する約190倍のトークン還元を可能にした。
様々な推論ベンチマークと3つのオープンソースモデルにわたって、コントローラは確実に停止すると92.6%の精度を達成する。
これをCoRefine-Treeというハイブリッドなシーケンシャル並列型に拡張し、探索とエクスプロイトを適応的にバランスさせ、統合と検証の容易な互換性を実現します。
信頼性を正当性保証ではなく制御信号として扱うことで、CoRefineはスケーラブルな推論と不完全な検証機能を備えたエージェント設定のためのモジュラープリミティブを提供する。
関連論文リスト
- Reliability-Aware Adaptive Self-Consistency for Efficient Sampling in LLM Reasoning [20.371912257758634]
自己整合性はマルチサンプルアグリゲーションによる推論信頼性を向上させるが、かなりの推論コストを発生させる。
本稿では,この制限に対処する信頼性適応型自己整合性(ReASC)を提案する。
ReASCは、既存のベースラインと比較して常に最高の精度とコストのトレードオフを達成し、3Bから27Bパラメータのモデルスケールでの推論効率を向上させる。
論文 参考訳(メタデータ) (2026-01-06T12:27:53Z) - Annotation-Efficient Universal Honesty Alignment [70.05453324928955]
既存の手法では、トレーニングなしの信頼度推定や、正当性アノテーションによるトレーニングベースキャリブレーションに頼っている。
Elicitation-Then-Calibration (EliCal) は、まず安価な自己整合性監視を用いて内部信頼を引き出す2段階のフレームワークである。
EliCalは1kの正当性アノテーション(全監督の0.18%)でほぼ最適アライメントを実現し、キャリブレーションのみのベースラインよりも目立たないMMLUタスクでのアライメント性能が向上した。
論文 参考訳(メタデータ) (2025-10-20T13:05:22Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Distilling Calibration via Conformalized Credal Inference [30.8135853479509]
信頼性を高める方法の1つは、ベイズ推定による不確実な定量化である。
本稿では,より複雑なモデルからキャリブレーション情報を抽出することにより,この問題に対処する低複雑さ手法を提案する。
視覚的および言語的タスクの実験により,提案手法はCD-CI (Conformalized Distillation for Credal Inference) と呼ばれ,校正性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-01-10T15:57:23Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。