Fugu-MT 論文翻訳(概要): XTRUST: On the Multilingual Trustworthiness of Large Language Models

論文の概要: XTRUST: On the Multilingual Trustworthiness of Large Language Models

arxiv url: http://arxiv.org/abs/2409.15762v1
Date: Tue, 24 Sep 2024 05:38:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 08:51:16.984783
Title: XTRUST: On the Multilingual Trustworthiness of Large Language Models
Title（参考訳）: XTRUST:大規模言語モデルの多言語信頼性について
Authors: Yahan Li, Yi Wang, Yi Chang, Yuan Wu,
Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにまたがる顕著な機能を示している。現在AIコミュニティが占めている重要な質問は、これらのモデルの能力と制限に関するものだ。 Xは、最初の総合的な多言語信頼性ベンチマークである。
参考スコア（独自算出の注目度）: 14.128810448194699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across a range of natural language processing (NLP) tasks, capturing the attention of both practitioners and the broader public. A key question that now preoccupies the AI community concerns the capabilities and limitations of these models, with trustworthiness emerging as a central issue, particularly as LLMs are increasingly applied in sensitive fields like healthcare and finance, where errors can have serious consequences. However, most previous studies on the trustworthiness of LLMs have been limited to a single language, typically the predominant one in the dataset, such as English. In response to the growing global deployment of LLMs, we introduce XTRUST, the first comprehensive multilingual trustworthiness benchmark. XTRUST encompasses a diverse range of topics, including illegal activities, hallucination, out-of-distribution (OOD) robustness, physical and mental health, toxicity, fairness, misinformation, privacy, and machine ethics, across 10 different languages. Using XTRUST, we conduct an empirical evaluation of the multilingual trustworthiness of five widely used LLMs, offering an in-depth analysis of their performance across languages and tasks. Our results indicate that many LLMs struggle with certain low-resource languages, such as Arabic and Russian, highlighting the considerable room for improvement in the multilingual trustworthiness of current language models. The code is available at https://github.com/LluckyYH/XTRUST.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示し、実践者と一般人の注目を集めている。現在AIコミュニティに偏っている重要な疑問は、これらのモデルの能力と限界についてであり、信頼性が中心的な課題として浮上している。しかし、LLMの信頼性に関するこれまでの研究は、英語のようなデータセットで典型的に支配的な言語である単一の言語に限られていた。 LLMのグローバル展開に対する反応として,最初の総合的多言語信頼度ベンチマークであるXTRUSTを導入する。 XTRUSTには、違法な活動、幻覚、アウト・オブ・ディストリビューション(OOD)の堅牢性、身体と精神の健康、毒性、公正性、誤情報、プライバシー、機械倫理など、さまざまなトピックが含まれている。 XTRUSTを用いて、広く使われている5つのLLMの多言語信頼度を実証的に評価し、言語やタスク間での性能を詳細に分析する。以上の結果から,LLMはアラビア語やロシア語などの低リソース言語に苦しむものが多く,言語モデルの多言語的信頼性向上の余地があることが示唆された。コードはhttps://github.com/LluckyYH/XTRUSTで公開されている。

関連論文リスト

Large Language Models for Mental Health: A Multilingual Evaluation [17.886031066436292]
各種言語における8つのメンタルヘルスデータセットに基づいて,プロプライエタリでオープンソースのLarge Language Models (LLMs)を評価した。我々は,従来のNLPベースラインとゼロショット,少数ショット,微調整設定におけるLCM性能を比較した。 LLMの性能に影響を及ぼすために,言語家族やタイポロジーにまたがる翻訳品質を評価した。
論文参考訳（メタデータ） (2026-02-02T18:34:53Z)
Humans overrely on overconfident language models, across languages [32.71245803698373]
5言語にわたる多言語言語(ミス)校正,過信,過信のリスクについて検討した。オーバー信頼リスクはすべての言語で高いことが分かっています。
論文参考訳（メタデータ） (2025-07-08T18:01:01Z)
Uncovering inequalities in new knowledge learning by large language models across different languages [66.687369838071]
低リソース言語は、4つの次元すべてで一貫して不利に直面していることを示す。我々は,LLMの新たな知識学習における言語的不平等の認識を高め,より包括的で公平な将来のLLMの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T03:41:47Z)
Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs [13.558778781305998]
大規模言語モデル (LLM) は主に英語を基本言語として設計されている。多言語である少数の人々でさえ、強い英語中心の偏見を示す傾向がある。本稿では,多言語出力の語彙的および構文的自然性を評価するための新しい自動コーパスレベル指標を提案する。
論文参考訳（メタデータ） (2024-10-21T12:34:17Z)
MlingConf: A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [23.384966485398184]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。 LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文参考訳（メタデータ） (2024-10-16T11:46:55Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
LLM for Everyone: Representing the Underrepresented in Large Language Models [21.07409393578553]
この論文は、表現不足言語に焦点をあてて、NLPの研究と開発におけるギャップを埋めることを目的としている。大規模言語モデル(LLM)の包括的評価を行い,それらの能力を評価する。提案手法は、言語間連続的命令チューニング、検索に基づく言語間インコンテキスト学習、コンテキスト内クエリアライメントを網羅する。
論文参考訳（メタデータ） (2024-09-20T20:53:22Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文参考訳（メタデータ） (2024-04-01T05:13:56Z)
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文参考訳（メタデータ） (2024-03-15T12:47:39Z)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (2024-02-26T09:36:05Z)
A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [23.384966485398184]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。 LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文参考訳（メタデータ） (2024-02-21T08:20:06Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Queries [31.82249599013959]
大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。 LLMは印象的な言語理解と生成能力を示しているが、その安全性に関する懸念は依然として最重要である。これらのLLMが非英語の文脈でどのように機能するかは、まだ不明である。
論文参考訳（メタデータ） (2023-10-19T20:02:40Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。