論文の概要: A Comprehensive Study of Multilingual Confidence Estimation on Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.13606v1
- Date: Wed, 21 Feb 2024 08:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:34:34.916527
- Title: A Comprehensive Study of Multilingual Confidence Estimation on Large
Language Models
- Title(参考訳): 大規模言語モデルの多言語信頼度推定に関する総合的研究
- Authors: Boyang Xue, Hongru Wang, Weichao Wang, Rui Wang, Sheng Wang, Zeming
Liu, Kam-Fai Wong
- Abstract要約: 本稿では,大規模言語モデルにおける多言語信頼度推定(MlingConf)の包括的検討を紹介する。
本研究では,これらの信頼度スコアが,多言語間での自己抑止を通じてLLM性能を向上させる方法について検討する。
より正確な信頼度を求めるために,言語間信頼度推定法を提案する。
- 参考スコア(独自算出の注目度): 22.927967194408634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The tendency of Large Language Models to generate hallucinations and exhibit
overconfidence in predictions raises concerns regarding their reliability.
Confidence or uncertainty estimations indicating the extent of trustworthiness
of a model's response are essential to developing reliable AI systems. Current
research primarily focuses on LLM confidence estimations in English, remaining
a void for other widely used languages and impeding the global development of
reliable AI applications. This paper introduces a comprehensive investigation
of Multi-lingual confidence estimation (MlingConf) on LLMs. First, we introduce
an elaborated and expert-checked multilingual QA dataset. Second, we delve into
the performance of confidence estimations and examine how these confidence
scores can enhance LLM performance through self-refinement across diverse
languages. Finally, we propose a cross-lingual confidence estimation method to
achieve more precise confidence scores. The experimental results showcase the
performance of various confidence estimation methods across different languages
as well as present that our proposed cross-lingual confidence estimation
technique significantly enhances confidence estimation and outperforms several
baseline methods.
- Abstract(参考訳): 大きな言語モデルが幻覚を発生させ、予測に自信過剰を示す傾向は、その信頼性に関する懸念を引き起こす。
モデル応答の信頼性の程度を示す信頼性または不確実性の推定は、信頼できるAIシステムの開発に不可欠である。
現在の研究は、英語におけるLLMの信頼度の推定に重点を置いており、他の広く使われている言語では空白のままであり、信頼性の高いAIアプリケーションのグローバルな開発を妨げる。
本稿では,LLMにおける多言語信頼度推定(MlingConf)の包括的検討を紹介する。
まず、詳細な専門家による多言語QAデータセットを紹介する。
第2に,信頼度推定の性能を考察し,これらの信頼度スコアが,多様な言語間の自己定義を通じてllm性能をいかに向上させるかを検討する。
最後に,より正確な信頼度を求めるための言語間信頼度推定手法を提案する。
実験の結果,異なる言語間における様々な信頼度推定手法の性能を示すとともに,提案手法が信頼度推定を大幅に向上させ,複数のベースライン法を上回ることを示した。
関連論文リスト
- ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
ProverbEvalは,証明に基づく低リソース言語の評価ベンチマークである。
様々なLCMをベンチマークし、ベンチマークプロセスにおける変数を生成する要因を探索する。
我々は、選択の順序、プロンプト言語の選択、タスクの可変性、生成タスクに特別な注意を払わなければならないと論じている。
論文 参考訳(メタデータ) (2024-11-07T06:34:48Z) - MlingConf: A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [23.384966485398184]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。
このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。
LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文 参考訳(メタデータ) (2024-10-16T11:46:55Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - XTRUST: On the Multilingual Trustworthiness of Large Language Models [14.128810448194699]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにまたがる顕著な機能を示している。
現在AIコミュニティが占めている重要な質問は、これらのモデルの能力と制限に関するものだ。
Xは、最初の総合的な多言語信頼性ベンチマークである。
論文 参考訳(メタデータ) (2024-09-24T05:38:33Z) - Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models [16.942897938964638]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-01T15:11:37Z) - Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。