論文の概要: Annotation-Efficient Universal Honesty Alignment
- arxiv url: http://arxiv.org/abs/2510.17509v1
- Date: Mon, 20 Oct 2025 13:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.054868
- Title: Annotation-Efficient Universal Honesty Alignment
- Title(参考訳): アノテーション効率のよい普遍的正直アライメント
- Authors: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng,
- Abstract要約: 既存の手法では、トレーニングなしの信頼度推定や、正当性アノテーションによるトレーニングベースキャリブレーションに頼っている。
Elicitation-Then-Calibration (EliCal) は、まず安価な自己整合性監視を用いて内部信頼を引き出す2段階のフレームワークである。
EliCalは1kの正当性アノテーション(全監督の0.18%)でほぼ最適アライメントを実現し、キャリブレーションのみのベースラインよりも目立たないMMLUタスクでのアライメント性能が向上した。
- 参考スコア(独自算出の注目度): 70.05453324928955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Honesty alignment-the ability of large language models (LLMs) to recognize their knowledge boundaries and express calibrated confidence-is essential for trustworthy deployment. Existing methods either rely on training-free confidence estimation (e.g., token probabilities, self-consistency) or training-based calibration with correctness annotations. While effective, achieving universal honesty alignment with training-based calibration requires costly, large-scale labeling. To support annotation-efficient training, we introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that first elicits internal confidence using inexpensive self-consistency supervision, then calibrates this confidence with a small set of correctness annotations. To support a large-scale study, we release HonestyBench, a benchmark covering ten free-form QA datasets with 560k training and 70k evaluation instances annotated with correctness and self-consistency signals. Experiments show that EliCal achieves near-optimal alignment with only 1k correctness annotations (0.18% of full supervision) and better alignment performance on unseen MMLU tasks than the calibration-only baseline, offering a scalable solution toward universal honesty alignment in LLMs.
- Abstract(参考訳): 正直なアライメント - 信頼に値するデプロイメントには、大きな言語モデル(LLM)が知識境界を認識し、キャリブレーションされた信頼性を表現する能力が不可欠である。
既存の手法では、トレーニングなしの信頼度推定(トークン確率、自己整合性など)や、正当性アノテーションによるトレーニングベースの校正に頼っている。
効果的な一方で、トレーニングベースのキャリブレーションによる普遍的誠実な調整を実現するには、コストがかかる大規模なラベリングが必要である。
アノテーション効率のトレーニングを支援するために,まず,安価な自己整合性監視を用いて内部信頼を付与する2段階のフレームワークであるElicitation-Then-Calibration(EliCal)を導入し,その信頼性を小セットの正当性アノテーションで校正する。
大規模な研究を支援するために、HonestyBenchをリリースした。これは560kトレーニングと70k評価インスタンスをアノテートした10のフリーフォームQAデータセットをカバーするベンチマークである。
実験により、EliCalは1kの正当性アノテーション(全監督の0.18%)でほぼ最適アライメントを実現し、キャリブレーションのみのベースラインよりも、見えないMMLUタスクのアライメント性能が向上し、LLMにおける普遍的誠実アライメントに対するスケーラブルなソリューションを提供することが示された。
関連論文リスト
- ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models [34.59785123314865]
LLM(Large Language Models)の安全かつ信頼性の高い使用には、その回答に対する信頼性の正確な表現が必要である。
そこで本研究では,LLMを直接微調整し,評価された信頼度を,実際の質問に対する回答とともに表現できる新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T13:48:50Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,大規模言語モデルによって生成された複数の出力の自己整合性に基づいて,応答正当性を評価するための補助学習モデルを提案する。
提案手法は,複数応答間の一致を表現するために整合性グラフを構築し,グラフニューラルネットワーク(GNN)を用いて各応答の正しさを推定する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。