論文の概要: How Confident Is the First Token? An Uncertainty-Calibrated Prompt Optimization Framework for Large Language Model Classification and Understanding
- arxiv url: http://arxiv.org/abs/2603.18009v1
- Date: Mon, 23 Feb 2026 11:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.381484
- Title: How Confident Is the First Token? An Uncertainty-Calibrated Prompt Optimization Framework for Large Language Model Classification and Understanding
- Title(参考訳): 信頼とは何か? 大規模言語モデルの分類と理解のための不確実なキャリブレーションされたプロンプト最適化フレームワーク
- Authors: Wei Chen, Guoyang Ju, Yuanyuan Qi,
- Abstract要約: 大規模言語モデル(LLM)はアウトプットを自動回帰的に生成し、避けられないアウトプットの不確実性を引き起こす。
焦点損失にインスパイアされたファーストトケンベースの計量であるLSFU(Log-Scale Focal Uncertainty)を提案する。
UCPOFは、数点のベースラインよりも平均精度を6.03%向上し、フルRAGを5.75%上回り、平均検索トリガレートを50.66%低下させる。
- 参考スコア(独自算出の注目度): 4.852493246050006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread adoption of large language models (LLMs) in natural language processing, prompt engineering and retrieval-augmented generation (RAG) have become mainstream to enhance LLMs' performance on complex tasks. However, LLMs generate outputs autoregressively, leading to inevitable output uncertainty. Since model performance is highly sensitive to prompt design, precise uncertainty measurement is crucial for reliable prompt optimization. For multi-class multiple-choice (understanding) tasks, conventional uncertainty measures (e.g., entropy) based on output probabilities treat all classes equally and ignore class prior differences in pretraining corpora. This failure to distinguish spurious confidence (from priors) from true certainty (from contextual understanding) results in poor confidence calibration. To address this, we propose Log-Scale Focal Uncertainty (LSFU), a first-token-based metric inspired by focal loss. LSFU incorporates label prior probabilities as a risk-modulation factor to suppress noise from high-frequency classes and emphasize risk for low-frequency long-tail classes, with a dynamic weighting mechanism unifying the measurement scale. Based on LSFU, we further propose the uncertainty-calibrated prompt optimization framework (UCPOF), which leverages the first token of model outputs to select high-quality exemplars and dynamically optimize prompts. Comprehensive evaluations show UCPOF improves average accuracy by 6.03% over few-shot baselines, surpasses always-on full RAG by 5.75% in overall average accuracy, and reduces the average retrieval trigger rate by 50.66%. By adaptively triggering RAG only for high-uncertainty samples, our framework significantly lowers computational costs while maintaining state-of-the-art performance.
- Abstract(参考訳): 自然言語処理において大規模言語モデル (LLM) が広く採用されるようになると、複雑なタスクにおけるLLMの性能を高めるために、迅速なエンジニアリングと検索強化世代 (RAG) が主流になっている。
しかし、LCMは自己回帰的に出力を生成し、必然的に出力の不確実性を引き起こす。
モデル性能は設計に非常に敏感であるため,精度の高い不確実性測定は信頼性の高い最適化に不可欠である。
マルチクラス多重選択タスクでは、出力確率に基づく従来の不確実性尺度(例えばエントロピー)が全てのクラスを等しく扱い、事前学習コーパスのクラス事前差を無視する。
この(事前の)急激な信頼と(文脈的な理解から)真の確実性を区別できないことは、信頼性の校正を損なう。
これを解決するために,焦点損失にインスパイアされた第1のトークンであるLog-Scale Focal Uncertainty (LSFU)を提案する。
LSFUは、ラベル先行確率をリスク変調因子として組み込んで、高周波クラスからのノイズを抑制し、低周波ロングテールクラスのリスクを強調し、測定スケールを統一する動的重み付け機構を備えている。
LSFUに基づいて、モデル出力の最初のトークンを利用して高品質な例を選び、プロンプトを動的に最適化する不確実性校正プロンプト最適化フレームワーク(UCPOF)を提案する。
総合的な評価では、UCPOFは数点のベースラインよりも平均精度を6.03%改善し、全RAGを5.75%上回り、平均検索トリガレートを50.66%削減している。
高不確かさサンプルのみに適応的にRAGをトリガーすることにより、我々のフレームワークは最先端性能を維持しながら計算コストを大幅に削減する。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation [7.3923284353934875]
本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。
提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。
我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T16:55:56Z) - Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - Towards Better Code Generation: Adaptive Decoding with Uncertainty Guidance [42.737012213197865]
AdaDecはアダプティブなデコーディングフレームワークで、ルックアヘッドベースで不確実性を認識した停止と再実行のメカニズムを採用している。
AdaDecは、greedyデコーディングと比較して、Pass@1の精度で20.9%の絶対的なゲインを達成する。
AdaDecは、必要に応じて再ランクを適用することで、計算オーバーヘッドとレイテンシを低減し、信頼性とともに効率を向上する。
論文 参考訳(メタデータ) (2025-06-10T16:49:46Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Optimizing Class-Level Probability Reweighting Coefficients for Equitable Prompting Accuracy [12.287692969438169]
LLMは、事前訓練されたデータの統計正則性からのバイアスをしばしば発見する。
これは、分類とQAにおいて、永続的で不均一なクラス精度をもたらす。
本研究では,非微分不可能な性能駆動メトリクスを直接最適化するポストホック確率再重み付け手法を開発した。
論文 参考訳(メタデータ) (2024-05-13T10:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。