論文の概要: A Comprehensive Study of Multilingual Confidence Estimation on Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.13606v1
- Date: Wed, 21 Feb 2024 08:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:34:34.916527
- Title: A Comprehensive Study of Multilingual Confidence Estimation on Large
Language Models
- Title(参考訳): 大規模言語モデルの多言語信頼度推定に関する総合的研究
- Authors: Boyang Xue, Hongru Wang, Weichao Wang, Rui Wang, Sheng Wang, Zeming
Liu, Kam-Fai Wong
- Abstract要約: 本稿では,大規模言語モデルにおける多言語信頼度推定(MlingConf)の包括的検討を紹介する。
本研究では,これらの信頼度スコアが,多言語間での自己抑止を通じてLLM性能を向上させる方法について検討する。
より正確な信頼度を求めるために,言語間信頼度推定法を提案する。
- 参考スコア(独自算出の注目度): 22.927967194408634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The tendency of Large Language Models to generate hallucinations and exhibit
overconfidence in predictions raises concerns regarding their reliability.
Confidence or uncertainty estimations indicating the extent of trustworthiness
of a model's response are essential to developing reliable AI systems. Current
research primarily focuses on LLM confidence estimations in English, remaining
a void for other widely used languages and impeding the global development of
reliable AI applications. This paper introduces a comprehensive investigation
of Multi-lingual confidence estimation (MlingConf) on LLMs. First, we introduce
an elaborated and expert-checked multilingual QA dataset. Second, we delve into
the performance of confidence estimations and examine how these confidence
scores can enhance LLM performance through self-refinement across diverse
languages. Finally, we propose a cross-lingual confidence estimation method to
achieve more precise confidence scores. The experimental results showcase the
performance of various confidence estimation methods across different languages
as well as present that our proposed cross-lingual confidence estimation
technique significantly enhances confidence estimation and outperforms several
baseline methods.
- Abstract(参考訳): 大きな言語モデルが幻覚を発生させ、予測に自信過剰を示す傾向は、その信頼性に関する懸念を引き起こす。
モデル応答の信頼性の程度を示す信頼性または不確実性の推定は、信頼できるAIシステムの開発に不可欠である。
現在の研究は、英語におけるLLMの信頼度の推定に重点を置いており、他の広く使われている言語では空白のままであり、信頼性の高いAIアプリケーションのグローバルな開発を妨げる。
本稿では,LLMにおける多言語信頼度推定(MlingConf)の包括的検討を紹介する。
まず、詳細な専門家による多言語QAデータセットを紹介する。
第2に,信頼度推定の性能を考察し,これらの信頼度スコアが,多様な言語間の自己定義を通じてllm性能をいかに向上させるかを検討する。
最後に,より正確な信頼度を求めるための言語間信頼度推定手法を提案する。
実験の結果,異なる言語間における様々な信頼度推定手法の性能を示すとともに,提案手法が信頼度推定を大幅に向上させ,複数のベースライン法を上回ることを示した。
関連論文リスト
- When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
大規模言語モデル(LLM)は、誤りまたは非意味なテキストを生成する。
信頼を言葉で表現して信頼性を伝える既存の手法は、しばしば失敗する。
我々はconfidence-Quality-ORDerserving alignment approach (CONQORD)を提案する。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers [90.71323430635593]
本稿では,複数の候補回答の信頼性を徹底的に評価し,不正確な回答に対する過度な信頼を緩和する新しいパラダイムを提案する。
まず, LLMに各回答の正当性を反映し, 正当性を付与するように指示し, 総合的信頼度推定のための正当性を集約する2段階の枠組みを導入する。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Multi-Perspective Consistency Enhances Confidence Estimation in Large
Language Models [27.63938857490995]
本研究は,大規模言語モデルの信頼性評価の改善に焦点を当てる。
言語モデルにおける自己認識の脆弱さを考慮して,マルチパースペクティブ・一貫性(MPC)法を提案する。
8つの公開データセットの実験結果は、我々のMPCが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-02-17T13:37:39Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Improving the Reliability for Confidence Estimation [16.952133489480776]
信頼度推定は、デプロイ中のモデルの予測出力の信頼性を評価することを目的としたタスクである。
これまでの研究は、信頼度推定モデルが持つべき2つの重要な特性を概説してきた。
信頼度推定モデルにおいて、両方の品質を同時に改善できるメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T06:34:23Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。