Fugu-MT 論文翻訳(概要): Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using FActScore

論文の概要: Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using FActScore

arxiv url: http://arxiv.org/abs/2402.18045v2
Date: Fri, 1 Mar 2024 12:35:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-04 13:32:07.366852
Title: Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using FActScore
Title（参考訳）: マルチファクト:FActScoreを用いた多言語LLMの多言語知識の評価
Authors: Sheikh Shafayat, Eunsu Kim, Juhyun Oh, Alice Oh
Abstract要約: 大規模言語モデル(LLM)は、確立された知識と矛盾するテキストを生成するために、事実の幻覚を起こす傾向がある。本稿では,言語と地理的領域をまたいだ多言語LLMの事実的精度を体系的に評価する。
参考スコア（独自算出の注目度）: 16.295418365993033
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are prone to factuality hallucination, generating text that contradicts established knowledge. While extensive research has addressed this in English, little is known about multilingual LLMs. This paper systematically evaluates multilingual LLMs' factual accuracy across languages and geographic regions. We introduce a novel pipeline for multilingual factuality evaluation, adapting FActScore(Min et al., 2023) for diverse languages. Our analysis across nine languages reveals that English consistently outperforms others in factual accuracy and quantity of generated facts. Furthermore, multilingual models demonstrate a bias towards factual information from Western continents. These findings highlight the need for improved multilingual factuality assessment and underscore geographical biases in LLMs' fact generation.
Abstract（参考訳）: 大規模言語モデル(llm)は事実性幻覚(factuality hallucination)を起こしやすく、確立された知識と矛盾するテキストを生成する。多くの研究が英語でこれに取り組んでいるが、多言語LLMについてはほとんど知られていない。本稿では,言語と地理的領域の多言語LLMの事実精度を体系的に評価する。多様な言語にFActScore(Min et al., 2023)を適用した多言語事実性評価のための新しいパイプラインを提案する。 9つの言語で分析したところ、英語は事実の正確さと量で他より一貫して優れていることがわかった。さらに、多言語モデルは西欧大陸の事実情報に対するバイアスを示す。これらの知見は,LLMの事実生成における多言語的事実性評価の改善の必要性と,地理的偏見の低さを浮き彫りにした。

関連論文リスト

Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge [36.234295907476515]
機能的大規模言語モデル(LLM)の開発は、英語以外の言語における高品質な評価資源の欠如によってボトルネックとなっている。本研究では,各地域における多言語LLMの能力を評価するため,現地試験資料から197,243対のQAペアの評価スイートを構築した。
論文参考訳（メタデータ） (2024-11-29T16:03:14Z)
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文参考訳（メタデータ） (2024-10-17T09:45:32Z)
Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs [31.893686987768742]
言語モデルは、言語全体で同じ事実に答える能力に矛盾する。モデルがクエリに一貫して答える能力と、複数の言語で共有された表現で'ストア'する能力の2つの側面から、多言語的な事実知識を探求する。
論文参考訳（メタデータ） (2024-08-20T08:38:30Z)
Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文参考訳（メタデータ） (2024-08-19T17:02:06Z)
Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models [7.615938028813914]
Retrieval Augmented Generation (RAG)により、Large Language Models (LLM) は情報検索において重要な役割を担っている。 RAGに基づく情報検索において,LLMの言語的嗜好について検討した。その結果,LLMは問合せ言語と同一言語における情報に対して,情報検索と回答生成の両方において,体系的な偏りを示した。
論文参考訳（メタデータ） (2024-07-07T21:26:36Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
An Analysis of Multilingual FActScore [45.48784238480873]
FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
論文参考訳（メタデータ） (2024-06-20T18:09:40Z)
Multi-EuP: The Multilingual European Parliament Dataset for Analysis of Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文参考訳（メタデータ） (2023-11-03T12:29:11Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文参考訳（メタデータ） (2020-10-13T05:29:56Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。