論文の概要: Zero-Shot Confidence Estimation for Small LLMs: When Supervised Baselines Aren't Worth Training
- arxiv url: http://arxiv.org/abs/2605.02241v2
- Date: Tue, 05 May 2026 04:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.331984
- Title: Zero-Shot Confidence Estimation for Small LLMs: When Supervised Baselines Aren't Worth Training
- Title(参考訳): 小型LLMのゼロショット信頼度推定--教師付きベースラインが価値のない場合-
- Authors: Luong N. Nguyen,
- Abstract要約: RouteLLMスタイルの教師付きベースラインは、3つの7-8Bモデルファミリと2つのデータセットで比較される。
トレーニングデータを必要としない平均トークンログ確率は、配布中の教師付きベースラインにマッチするか、超過する。
前世代の信号である検索条件自己評価は、ログプロビタビリティよりも3~10倍のレイテンシで、最大0.069 AUROCで裸の自己評価を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How reliably can a small language model estimate its own correctness? The answer determines whether local-to-cloud routing-escalating queries a cheap local model cannot handle-can work without supervised training data. As inference costs dominate large language model (LLM) deployment budgets, routing most queries to a cheap local model while reserving expensive cloud calls for hard cases is an increasingly common cost-control strategy. We compare zero-shot confidence signals against RouteLLM-style supervised baselines across three 7-8B model families and two datasets (1,000 and 500 queries per model, respectively). Average token log-probability, which requires no training data, matches or exceeds supervised baselines in-distribution (Area Under the Receiver Operating Characteristic curve (AUROC) 0.650-0.714 vs. 0.644-0.676) and substantially outperforms them out-of-distribution (0.717-0.833 vs. 0.512-0.564), because it measures a property of the model's generation rather than the query distribution. This paper further proposes retrieval-conditional self-assessment, a pre-generation signal that selectively injects retrieved knowledge when similarity is high, improving over bare self-assessment by up to +0.069 AUROC at 3-10x lower latency than log-probability. A supervised baseline trained on 1,000 labeled examples never exceeds the zero-shot signal. We release all code, data, and experiment logs.
- Abstract(参考訳): 小さな言語モデルは、どの程度の正確さを見積もることができるのか?
この回答は、ローカルからクラウドへのルーティングエスカレーションクエリが、教師付きトレーニングデータなしでは、安価なローカルモデルでは処理できないかどうかを判断する。
推論コストが大規模言語モデル(LLM)デプロイメント予算を支配しているため、ほとんどのクエリを安価なローカルモデルにルーティングする一方で、高価なクラウドコールをハードケースに保存することは、コスト管理戦略としてますます一般的なものになっています。
我々は、7-8Bモデルの3つのモデルファミリーと2つのデータセット(それぞれ1000クエリと500クエリ)に対して、RouteLLMスタイルの教師付きベースラインに対してゼロショットの信頼性信号を比較する。
トレーニングデータを必要としない平均的なトークンログ確率は、教師付きベースラインの分配(Area Under the Receiver Operating Characteristics curve (AUROC) 0.650-0.714 vs. 0.644-0.676)と一致し、クエリ分布ではなくモデル世代の特性を測定するため、それらをかなり上回る(0.717-0.833 vs. 0.512-0.564)。
本稿では,類似度が高い場合に検索知識を選択的に注入する前世代の信号である検索条件自己評価を提案する。
1000個のラベル付きサンプルでトレーニングされた教師付きベースラインは、ゼロショット信号を超えない。
すべてのコード、データ、実験ログをリリースします。
関連論文リスト
- Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - Learning More from Less: Unlocking Internal Representations for Benchmark Compression [37.69575776639016]
異種隠蔽状態を統一潜在空間に整列させて代表コアセットを構成するREPCOREを導入する。
5つのベンチマークと200以上のモデルの実験は、ランキングの相関と推定精度において、出力ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-31T13:11:39Z) - Learn More with Less: Uncertainty Consistency Guided Query Selection for RLVR [18.494852448006462]
既存のRLVRアルゴリズムでは、大量のクエリ予算が必要で、アノテーションはコストがかかる。
我々は、RLVRにアクティブラーニング(AL)を導入し、より少ないがより情報的なクエリが類似または優れたパフォーマンスをもたらすかどうかを調査する。
実験の結果,本手法は乱数および古典的ALベースラインを一貫して上回り,データの30%をトレーニングしながら全データセットのパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2026-01-30T05:41:55Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Hard Negatives, Hard Lessons: Revisiting Training Data Quality for Robust Information Retrieval with LLMs [53.78110936809744]
堅牢で再帰的なモデルのトレーニングは通常、大規模なデータセットに依存します。
トレーニングデータセットにおいて、偽陰性を識別し、許容する。
トレーニングデータセットとコードは公開されています。
論文 参考訳(メタデータ) (2025-05-22T17:47:57Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - How Low Can You Go? Surfacing Prototypical In-Distribution Samples for Unsupervised Anomaly Detection [48.30283806131551]
非常に少ないトレーニングサンプルを持つUADが、トレーニングデータセット全体のトレーニングパフォーマンスにすでに一致している - そして、場合によっては、それを超えることもある、ということが、私たちは示しています。
そこで本研究では,UAD性能をさらに向上させるために,原型標本を確実に同定するための教師なし手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T15:30:47Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。