Fugu-MT 論文翻訳(概要): When to Trust LLMs: Aligning Confidence with Response Quality

論文の概要: When to Trust LLMs: Aligning Confidence with Response Quality

arxiv url: http://arxiv.org/abs/2404.17287v1
Date: Fri, 26 Apr 2024 09:42:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 13:24:47.125371
Title: When to Trust LLMs: Aligning Confidence with Response Quality
Title（参考訳）: LLMを信頼する時 - 信頼性と応答品質の整合性
Authors: Shuchang Tao, Liuyi Yao, Hanxing Ding, Yuexiang Xie, Qi Cao, Fei Sun, Jinyang Gao, Huawei Shen, Bolin Ding,
Abstract要約: 大規模言語モデル(LLM)は、誤りまたは非意味なテキストを生成する。信頼を言葉で表現して信頼性を伝える既存の手法は、しばしば失敗する。我々はconfidence-Quality-ORDerserving alignment approach (CONQORD)を提案する。
参考スコア（独自算出の注目度）: 49.371218210305656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the success of large language models (LLMs) in natural language generation, much evidence shows that LLMs may produce incorrect or nonsensical text. This limitation highlights the importance of discerning when to trust LLMs, especially in safety-critical domains. Existing methods, which rely on verbalizing confidence to tell the reliability by inducing top-k responses and sampling-aggregating multiple responses, often fail, due to the lack of objective guidance of confidence. To address this, we propose CONfidence-Quality-ORDerpreserving alignment approach (CONQORD), leveraging reinforcement learning with a tailored dual-component reward function. This function encompasses quality reward and orderpreserving alignment reward functions. Specifically, the order-preserving reward incentivizes the model to verbalize greater confidence for responses of higher quality to align the order of confidence and quality. Experiments demonstrate that our CONQORD significantly improves the alignment performance between confidence levels and response accuracy, without causing the model to become over-cautious. Furthermore, the aligned confidence provided by CONQORD informs when to trust LLMs, and acts as a determinant for initiating the retrieval process of external knowledge. Aligning confidence with response quality ensures more transparent and reliable responses, providing better trustworthiness.
Abstract（参考訳）: 自然言語生成における大きな言語モデル(LLM)の成功にもかかわらず、多くの証拠はLLMが誤った、あるいは非意味なテキストを生成する可能性があることを示している。この制限は、特に安全クリティカルな領域において、LLMを信頼する時を識別することの重要性を強調している。既存の手法は、トップk応答を誘導し、複数の応答をサンプリング・集約することで、信頼性を示すために言語化の信頼性に依存するが、信頼の客観的ガイダンスが欠如しているため、しばしば失敗する。これを解決するために,2成分報酬関数を調整した強化学習を利用するconfidence-Quality-ORDerserving alignment approach (CONQORD)を提案する。この機能は品質報酬と整列報酬関数を含む。具体的には、注文保存報酬は、より高い品質の応答に対する高い信頼を言葉で表し、信頼と品質の順序を一致させるモデルにインセンティブを与える。実験により, 信頼性レベルと応答精度のアライメント性能は, モデルが過度に安全になることなく, 大幅に向上することが示された。さらに、CONQORDが提供する一致した信頼度は、いつLLMを信頼するかを知らせ、外部知識の検索プロセスを開始するための決定要因として機能する。応答品質に対する信頼性の調整により、透明性と信頼性が向上し、信頼性が向上する。

関連論文リスト

BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文参考訳（メタデータ） (2025-10-27T15:58:51Z)
ADVICE: Answer-Dependent Verbalized Confidence Estimation [7.331438721730309]
言語的信頼の基盤となる力学を詳細に分析する。我々は、回答の独立性を重要な要因とみなし、モデルが自身の回答に自信を持てないことを前提としています。本稿では,回答基底の信頼度推定を容易にする微調整フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-13T02:18:33Z)
Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文参考訳（メタデータ） (2025-08-16T13:29:35Z)
Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.607071807794195]
大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文参考訳（メタデータ） (2025-08-08T11:11:22Z)
Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems [52.57826440085856]
LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。 LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。本稿では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
論文参考訳（メタデータ） (2025-06-03T07:32:57Z)
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。 MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文参考訳（メタデータ） (2025-05-30T17:54:08Z)
SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文参考訳（メタデータ） (2025-03-04T18:40:49Z)
Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文参考訳（メタデータ） (2025-02-17T11:11:09Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文参考訳（メタデータ） (2024-12-19T11:10:36Z)
Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文参考訳（メタデータ） (2024-12-19T10:04:29Z)
Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文参考訳（メタデータ） (2024-11-20T14:15:18Z)
Learning to Route with Confidence Tokens [43.63392143501436]
大規模言語モデルが回答の信頼性を確実に示すことができる範囲について検討する。本稿では,LLMの信頼性を確実に表現するための軽量トレーニング戦略であるSelf-REFを提案する。信頼度を言語化したり、トークンの確率を調べるといった従来の手法と比較して、信頼度トークンは下流のルーティングや拒否学習タスクにおいて著しく改善されていることを実証的に示す。
論文参考訳（メタデータ） (2024-10-17T07:28:18Z)
TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。 TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文参考訳（メタデータ） (2024-07-06T07:19:30Z)
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文参考訳（メタデータ） (2024-05-31T16:21:16Z)
Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。モデルの内部と信頼感の一致を調査する。分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文参考訳（メタデータ） (2024-05-25T15:42:04Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
The Calibration Gap between Model and Human Confidence in Large Language Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文参考訳（メタデータ） (2024-01-24T22:21:04Z)
TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文参考訳（メタデータ） (2024-01-10T22:07:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。