論文の概要: Retrieval-Augmented Linguistic Calibration
- arxiv url: http://arxiv.org/abs/2605.19344v1
- Date: Tue, 19 May 2026 04:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.121097
- Title: Retrieval-Augmented Linguistic Calibration
- Title(参考訳): Retrieval-Augmented Linguistic Calibration
- Authors: Yi-Fan Yeh, Linwei Tao, Minjing Dong, Tao Huang, Jialin Yu, Philip Torr, Chang Xu,
- Abstract要約: 我々は,言語的信頼度を,文が正しいと認識される確率値の分布としてモデル化する。
Retrieval-Augmented Linguistic truth (RALC)は、信頼性信号を自然言語に伝達する軽量なポストホックパイプラインである。
- 参考スコア(独自算出の注目度): 57.41519309308438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linguistic cues such as "I believe" and "probably" offer an intuitive interface for communicating confidence, yet a generalisable, principled calibration framework for linguistic confidence expressions remains underexplored. In particular, co-occurring linguistic cues, contextual variation, and subjective audience interpretation pose unique challenges. We therefore model linguistic confidence as a distribution over plausible perceived probability values that a statement is correct, capturing interpretation variability that scalar representations discard. Within this distributional framework, we introduce faithfulness as a complementary evaluation dimension and present Faithfulness Divergence (FD), an information-theoretic metric quantifying the surprise induced in audience beliefs upon truth revelation. Building on these foundations, we present Retrieval-Augmented Linguistic Calibration (RALC), a lightweight post-hoc pipeline that propagates calibrated confidence signals back into natural language via retrieval-augmented rewriting. Across three QA benchmarks and five LLM families, RALC improves in-domain faithfulness and calibration up to 66% and 58%, respectively, outperforming black-box and grey-box calibration baselines.
- Abstract(参考訳): I believe" や "probably" のような言語的手がかりは、信頼を伝達するための直感的なインターフェースを提供するが、言語的信頼表現のための一般化可能な、原則化された校正フレームワークは、まだ探索されていない。
特に、言語的手がかり、文脈的変化、主観的観衆解釈が独特な課題を呈している。
そこで我々は、言語的信頼度を、文が正しいと認識される確率値の分布としてモデル化し、スカラー表現が破棄される解釈変数をキャプチャする。
本研究は, 信頼度を相補的評価次元として導入し, 真理の啓示に基づく聴衆の信念に生じる驚きを定量化する情報理論量であるFD(Faithfulness Divergence)を提示する。
これらの基礎の上に構築されたRetrieval-Augmented Linguistic Calibration (RALC)は、検索強化書き換えにより、キャリブレーションされた信頼信号を自然言語に伝達する軽量なポストホックパイプラインである。
3つのQAベンチマークと5つのLLMファミリーで、ALCはドメイン内の忠実度とキャリブレーションを66%と58%に改善し、ブラックボックスとグレイボックスのキャリブレーションベースラインを上回った。
関連論文リスト
- Calibrating LLMs with Semantic-level Reward [35.81380656593668]
言語モデルを直接意味空間で校正するフレームワークであるtextbfCalibration with Semantic Reward (CSR) を提案する。
CSRは、ほぼすべての設定において、言語化信頼ベースラインよりも低ECEと高AUROCを一貫して達成する。
論文 参考訳(メタデータ) (2026-05-15T03:55:11Z) - Identifying Influential N-grams in Confidence Calibration via Regression Analysis [53.95767806659635]
回帰法を適用することにより,言語表現が信頼とどのような関係があるかを明らかにする。
我々は,大言語モデル (LLM) が推論に関わる場合,過度に信頼されていることを示す。
性能低下を伴わずに過信表現を単純に抑えることで、信頼度校正が可能であることを明らかにした。
論文 参考訳(メタデータ) (2026-04-07T11:58:49Z) - Closing the Confidence-Faithfulness Gap in Large Language Models [3.122242683664973]
大規模言語モデルは、実際の精度から大きく切り離された信頼スコアを言語化する。
本稿では,言語的信頼度に関する機械論的解釈可能性分析について述べる。
本稿では,モデルの内部精度推定値を読み取る2段階適応型ステアリングパイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-26T05:42:04Z) - Rubric-Guided Fine-tuning of SpeechLLMs for Multi-Aspect, Multi-Rater L2 Reading-Speech Assessment [8.300738063140129]
本稿では,多視点評価基準を明示的に符号化したルーリック誘導推論フレームワークを提案する。
我々は、解釈可能な信頼区間に対する共形キャリブレーションによって支持される不確実性校正回帰手法を開発する。
以上の結果から,ルーブリック誘導型不確実性校正推論は,信頼性と説明可能なSpeechLLMに基づく音声評価への原則的道筋を提供することが示された。
論文 参考訳(メタデータ) (2026-02-28T11:08:24Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。
モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文 参考訳(メタデータ) (2026-02-13T03:40:52Z) - Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。