論文の概要: Margin-Adaptive Confidence Ranking for Reliable LLM Judgement
- arxiv url: http://arxiv.org/abs/2605.15416v1
- Date: Thu, 14 May 2026 21:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.10403
- Title: Margin-Adaptive Confidence Ranking for Reliable LLM Judgement
- Title(参考訳): 信頼度LLM判定におけるMargin-Adaptive Confidence Ranking
- Authors: Gaojie Jin, Yong Tao, Lijia Yu, Tianjin Huang,
- Abstract要約: Jung et al. (2025)は、大きな言語モデルと人間の判断の一致を保証する仮説テストフレームワークを導入した。
我々は、信頼信号に頼るのではなく、専用の信頼度推定器を学ぶ。
固定シーケンステストに統合されると、学習された信頼度推定器はランキング精度を改善し、信頼度と不一致リスクの間の単調な関係を実証的に強化する。
- 参考スコア(独自算出の注目度): 19.892445164810987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jung et al. (2025) introduce a hypothesis testing framework for guaranteeing agreement between large language models (LLMs) and human judgments, relying on the assumption that the model's estimated confidence is monotonic with respect to human-disagreement risk. In practice, however, this assumption may be violated, and the generalization behavior of the confidence estimator is not explicitly analyzed. We mitigate these issues by learning a dedicated confidence estimator instead of relying on heuristic confidence signals. Our approach leverages simulated annotator diversity and a margin-based ranking formulation to explicitly model how confidently an LLM distinguishes between human-agreement and human-disagreement cases. We further derive generalization guarantees for this estimator, revealing a margin-dependent trade-off that informs the design of an adaptive estimator training procedure. When integrated into fixed-sequence testing, the learned confidence estimator yields improved ranking accuracy and empirically strengthens the monotonic relationship between confidence and disagreement risk, leading to higher success rates in satisfying target agreement levels across multiple datasets and judge models.
- Abstract(参考訳): Jung et al (2025) は、大きな言語モデル(LLM)と人間の判断の一致を保証する仮説テストフレームワークを導入し、モデルの推定信頼度が人間の分散リスクに対して単調であるという仮定に依存している。
しかし実際には、この仮定は違反する可能性があり、信頼度推定器の一般化挙動は明示的には分析されない。
我々は、ヒューリスティックな信頼信号に頼るのではなく、専用の信頼度推定器を学習することで、これらの問題を緩和する。
提案手法は, シミュレーションアノテータの多様性とマージンに基づくランキングの定式化を利用して, LLMが人体と人体を区別する可能性を明確にモデル化する。
さらに、適応型推定器の訓練手順の設計を通知するマージン依存トレードオフを明らかにすることにより、この推定器の一般化保証を導出する。
固定シーケンステストに統合されると、学習された信頼度推定器はランキング精度を向上し、信頼と不一致リスクの間のモノトニックな関係を実証的に強化し、複数のデータセットや判断モデルにわたる目標合意レベルを満たす成功率を高める。
関連論文リスト
- Aligning LLM Uncertainty with Human Disagreement in Subjectivity Analysis [57.78407973423517]
我々は、モデルが人間の不一致を反映した不確実性を表現しながら予測する不確実性を考慮した主観性分析を提唱する。
この視点を運用するために,二相認識と不確実性アライメントの枠組みを提案する。
3つの主観的分析課題の実験は、DPUAが人間の不一致とモデルの不確実性をよりよく整合させながら、タスク性能を保っていることを示している。
論文 参考訳(メタデータ) (2026-05-11T11:52:58Z) - Confidence Estimation in Automatic Short Answer Grading with LLMs [0.0]
生成型大言語モデル(LLM)を用いた自動短解像(ASAG)は,タスク固有の微調整を伴わずに高い性能を示した。
LLMのグレーディングは依然として不完全であり、安全で効果的な人間とAIのコラボレーションには信頼性の高い信頼度推定が不可欠である。
本稿では,モデルに基づく信頼度信号とデータセット由来のアレータ的不確実性の明示的な推定を統合したハイブリッド信頼フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-30T20:26:10Z) - Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks [52.81286869496811]
大規模な言語モデルは、自信を持って不正確な推論が現実世界の害を引き起こすような、ハイテイクなタスクにますますデプロイされている。
内的フィードバックからの教師なし強化学習と推論・トラス誘導型推論蒸留を併用して協調的に最適化することを提案する。
PRG方式のメトリクスを用いてRDとRLIFを適応的に重み付けするハイブリッドポストトレーニングフレームワークであるHyTuningを紹介する。
論文 参考訳(メタデータ) (2026-04-09T16:50:11Z) - BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Calibrating Verbalized Confidence with Self-Generated Distractors [24.56911906044891]
DINCO(Distractor-Normalized Coherence)を紹介する。
DINCOは、LLMの予測可能性バイアスを推定し、いくつかの自己生成障害に対してモデルに独立して信頼性を持たせることによって説明している。
我々は、自己整合性の一般的なアプローチを、サンプル世代間でのコヒーレンスを活用すること、および非互換なクレーム上での検証におけるコヒーレンスを活用することとして、言語化された信頼を正規化したものである。
論文 参考訳(メタデータ) (2025-09-29T21:41:22Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。
本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。
各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文 参考訳(メタデータ) (2025-02-03T07:43:27Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。