論文の概要: Teaching LLMs to Abstain via Fine-Grained Semantic Confidence Reward
- arxiv url: http://arxiv.org/abs/2510.24020v1
- Date: Tue, 28 Oct 2025 03:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.728616
- Title: Teaching LLMs to Abstain via Fine-Grained Semantic Confidence Reward
- Title(参考訳): 微粒化セマンティック・リワードによるLCMの維持指導
- Authors: Hao An, Yang Xu,
- Abstract要約: 大規模言語モデル(LLM)における幻覚の緩和は、信頼性の高いデプロイメントにおいて重要である。
我々は,$textbfunderlineFine-fine underline Semantic UnderlineConfidence underlineReward (Ours) に基づく新しい強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.921470220575384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mitigating hallucinations in Large Language Models (LLMs) is critical for their reliable deployment. Existing methods typically fine-tune LLMs to abstain from answering questions beyond their knowledge scope. However, these methods often rely on coarse-grained signals to guide LLMs to abstain, such as overall confidence or uncertainty scores on multiple sampled answers, which may result in an imprecise awareness of the model's own knowledge boundaries. To this end, we propose a novel reinforcement learning framework built on $\textbf{\underline{Fi}ne-grained \underline{S}emantic \underline{Co}nfidence \underline{Re}ward (\Ours)}$, which guides LLMs to abstain via sample-specific confidence. Specifically, our method operates by sampling multiple candidate answers and conducting semantic clustering, then training the LLM to retain answers within high-confidence clusters and discard those within low-confidence ones, thereby promoting accurate post-hoc abstention. Additionally, we propose a new metric for evaluating the reliability of abstention fine-tuning tasks more comprehensively. Our method significantly enhances reliability in both in-domain and out-of-distribution benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)における幻覚の緩和は、信頼性の高いデプロイメントにおいて重要である。
既存の方法は通常、知識の範囲を超えて質問に答えることを禁じるために、微調整のLSMを使用する。
しかしながら、これらの手法は、複数のサンプル回答に対する総合的な信頼や不確実性スコアなど、LCMを断ち切るための粗い信号に依存しており、モデル自身の知識境界に対する不正確な認識をもたらす可能性がある。
この目的のために, $\textbf{\underline{Fi}ne-fine \underline{S}emantic \underline{Co}nfidence \underline{Re}ward (\Ours)}$ を用いた新しい強化学習フレームワークを提案する。
具体的には、複数の候補回答をサンプリングし、セマンティッククラスタリングを行い、次にLLMを訓練して、高信頼クラスタ内の回答を保持し、低信頼クラスタ内の回答を破棄し、正確な保留後停止を促進する。
さらに, より包括的に, 留置細調整タスクの信頼性を評価するための新しい指標を提案する。
本手法は,ドメイン内およびアウト・オブ・ディストリビューションベンチマークの信頼性を著しく向上させる。
関連論文リスト
- On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models [47.439995799065755]
プレトレーニング中のLLMの信頼性の探索を開拓した。
信頼性、プライバシー、毒性、公平性、堅牢性という5つの重要な側面に注目します。
我々は、同様の2相現象、すなわちフィッティングと圧縮を初めて観測した。
論文 参考訳(メタデータ) (2024-02-29T18:55:06Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。