論文の概要: Distilling Self-Consistency into Verbal Confidence: A Pre-Registered Negative Result and Post-Hoc Rescue on Gemma 3 4B
- arxiv url: http://arxiv.org/abs/2604.24070v1
- Date: Mon, 27 Apr 2026 05:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.757871
- Title: Distilling Self-Consistency into Verbal Confidence: A Pre-Registered Negative Result and Post-Hoc Rescue on Gemma 3 4B
- Title(参考訳): 言語信頼への自己整合性の希釈:Gemma 3 4Bにおける事前登録陰性な結果とポストホック救済
- Authors: Jon-Paul Cacioli,
- Abstract要約: インストラクトチューニングされた小さなLLMは、最小の誘引の下で変性した言語的信頼を生み出す。
自信条件付き教師付き微調整と自己整合性に基づく目標が内部情報と音声読取のギャップを埋めるかどうかを検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small instruct-tuned LLMs produce degenerate verbal confidence under minimal elicitation: ceiling rates above 95%, near-chance Type-2 AUROC, and Invalid validity profiles. We test whether confidence-conditioned supervised fine-tuning (CSFT) with self-consistency-derived targets can close the gap between internal information and verbal readout. A pre-registered Phase 0 protocol on Gemma 3 4B-it with a modal filter restricting training to items with correct modal answers produced a negative result: AUROC2 dropped from 0.554 to 0.509 due to label-entropy collapse in the training targets. An exploratory rescue removed the filter, training on all 2,000 calibration items. This produced a binary verbal correctness discriminator with AUROC2 = 0.774 on held-out TriviaQA, compressing a 10-sample self-consistency signal (AUROC2 = 0.999) into a single-pass readout exceeding logit entropy (0.701). The shuffled-target control showed no improvement (0.501). On MMLU, accuracy improved from 54.2% to 77.4% with the shuffled model at baseline (56.1%), supporting a target-dependent interpretation. The result is exploratory, binary rather than continuously calibrated, and observed at a single scale. It identifies two design lessons: confidence training requires label entropy, and correct targets regularise output format.
- Abstract(参考訳): マイクロインストラクションチューニングLLMは、95%以上の天井率、近チャンスタイプ2AUROC、無効妥当性プロファイルなど、最小の誘引の下で退化的言語信頼を生み出す。
自信条件付き教師付き微調整(CSFT)と自己整合性に基づく目標が内部情報と口頭読解のギャップを埋めるかどうかを検証する。
AUROC2はトレーニング対象のラベルエントロピー崩壊により0.554から0.509に低下した。
探索救助によりフィルターは取り外され、2000個のキャリブレーションアイテムの全てを訓練した。
これにより、TriviaQA で AUROC2 = 0.774 の2進言正当性判別器が生成され、10サンプルの自己整合信号 (AUROC2 = 0.999) をロジトエントロピー (0.701) を超えるシングルパスの読み出しに圧縮した。
シャッフルターゲット制御では改善は認められなかった(0.501。
MMLUでは、精度が54.2%から77.4%に向上し、ベースラインでのシャッフルモデル(56.1%)が目標に依存した解釈をサポートするようになった。
その結果は探索的であり、連続的な校正ではなくバイナリであり、単一のスケールで観測される。
信頼性トレーニングにはラベルのエントロピーが必要である。
関連論文リスト
- Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen [0.0]
実験では,7つの指導訓練付きオープンウェイトモデルを用いて,最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
カテゴリー的誘因は有効性には至らなかった。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった。
論文 参考訳(メタデータ) (2026-04-24T04:45:21Z) - The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - Calibrated Confidence Estimation for Tabular Question Answering [0.0]
ECE 0.35-0.64 に対して、テキスト QA では 0.10-0.15 が報告されている)。
摂動二分法に対する一貫した自己評価は、両方のベンチマークと4つの完全にカバーされたモデル間で複製される。
構造を意識した再校正による二次貢献は、標準的なポストホック法よりもAUROCをパーセンテージポイントで改善する。
論文 参考訳(メタデータ) (2026-04-14T09:16:53Z) - Disposition Distillation at Small Scale: A Three-Arc Negative Result [0.0]
内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalを報告している。
コンテントを損なうことなく, 判断された配置をスタイル的な模倣に転換するオペレータは見つからない。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
論文 参考訳(メタデータ) (2026-04-13T17:40:31Z) - CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute [10.548368675645403]
CoRefineは、トークンのごく一部を使って競争精度を達成する自信誘導型自己精製法である。
コントローラはフルトレースの信頼性を消費し、停止するか、再検査するか、あるいは別のアプローチを試すかを決定する。
これをCoRefine-Treeに拡張します。これは、探索とエクスプロイトを適応的にバランスさせる、ハイブリッドなシーケンシャル並列型です。
論文 参考訳(メタデータ) (2026-02-09T17:44:41Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Annotation-Efficient Universal Honesty Alignment [70.05453324928955]
既存の手法では、トレーニングなしの信頼度推定や、正当性アノテーションによるトレーニングベースキャリブレーションに頼っている。
Elicitation-Then-Calibration (EliCal) は、まず安価な自己整合性監視を用いて内部信頼を引き出す2段階のフレームワークである。
EliCalは1kの正当性アノテーション(全監督の0.18%)でほぼ最適アライメントを実現し、キャリブレーションのみのベースラインよりも目立たないMMLUタスクでのアライメント性能が向上した。
論文 参考訳(メタデータ) (2025-10-20T13:05:22Z) - Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Adversarial Training with Rectified Rejection [114.83821848791206]
本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
論文 参考訳(メタデータ) (2021-05-31T08:24:53Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。