論文の概要: Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using
FActScore
- arxiv url: http://arxiv.org/abs/2402.18045v2
- Date: Fri, 1 Mar 2024 12:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 13:32:07.366852
- Title: Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using
FActScore
- Title(参考訳): マルチファクト:FActScoreを用いた多言語LLMの多言語知識の評価
- Authors: Sheikh Shafayat, Eunsu Kim, Juhyun Oh, Alice Oh
- Abstract要約: 大規模言語モデル(LLM)は、確立された知識と矛盾するテキストを生成するために、事実の幻覚を起こす傾向がある。
本稿では,言語と地理的領域をまたいだ多言語LLMの事実的精度を体系的に評価する。
- 参考スコア(独自算出の注目度): 16.295418365993033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are prone to factuality hallucination,
generating text that contradicts established knowledge. While extensive
research has addressed this in English, little is known about multilingual
LLMs. This paper systematically evaluates multilingual LLMs' factual accuracy
across languages and geographic regions. We introduce a novel pipeline for
multilingual factuality evaluation, adapting FActScore(Min et al., 2023) for
diverse languages. Our analysis across nine languages reveals that English
consistently outperforms others in factual accuracy and quantity of generated
facts. Furthermore, multilingual models demonstrate a bias towards factual
information from Western continents. These findings highlight the need for
improved multilingual factuality assessment and underscore geographical biases
in LLMs' fact generation.
- Abstract(参考訳): 大規模言語モデル(llm)は事実性幻覚(factuality hallucination)を起こしやすく、確立された知識と矛盾するテキストを生成する。
多くの研究が英語でこれに取り組んでいるが、多言語LLMについてはほとんど知られていない。
本稿では,言語と地理的領域の多言語LLMの事実精度を体系的に評価する。
多様な言語にFActScore(Min et al., 2023)を適用した多言語事実性評価のための新しいパイプラインを提案する。
9つの言語で分析したところ、英語は事実の正確さと量で他より一貫して優れていることがわかった。
さらに、多言語モデルは西欧大陸の事実情報に対するバイアスを示す。
これらの知見は,LLMの事実生成における多言語的事実性評価の改善の必要性と,地理的偏見の低さを浮き彫りにした。
関連論文リスト
- Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs [31.893686987768742]
言語モデルは、言語全体で同じ事実に答える能力に矛盾する。
モデルがクエリに一貫して答える能力と、複数の言語で共有された表現で'ストア'する能力の2つの側面から、多言語的な事実知識を探求する。
論文 参考訳(メタデータ) (2024-08-20T08:38:30Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models [7.615938028813914]
Retrieval Augmented Generation (RAG)により、Large Language Models (LLM) は情報検索において重要な役割を担っている。
RAGに基づく情報検索において,LLMの言語的嗜好について検討した。
その結果,LLMは問合せ言語と同一言語における情報に対して,情報検索と回答生成の両方において,体系的な偏りを示した。
論文 参考訳(メタデータ) (2024-07-07T21:26:36Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - An Analysis of Multilingual FActScore [45.48784238480873]
FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
論文 参考訳(メタデータ) (2024-06-20T18:09:40Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。