論文の概要: Multi-FAct: Assessing Factuality of Multilingual LLMs using FActScore
- arxiv url: http://arxiv.org/abs/2402.18045v3
- Date: Thu, 03 Oct 2024 14:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:37.408629
- Title: Multi-FAct: Assessing Factuality of Multilingual LLMs using FActScore
- Title(参考訳): マルチファクト:FActScore を用いた多言語 LLM のファクトリティ評価
- Authors: Sheikh Shafayat, Eunsu Kim, Juhyun Oh, Alice Oh,
- Abstract要約: 多様な言語にFActScoreを適用することで,多言語事実性評価のための簡易パイプラインを提案する。
地域多様性を反映したトピックにおける長文生成の事実的精度を評価する。
- 参考スコア(独自算出の注目度): 14.91669562846729
- License:
- Abstract: Evaluating the factuality of long-form large language model (LLM)-generated text is an important challenge. Recently there has been a surge of interest in factuality evaluation for English, but little is known about the factuality evaluation of multilingual LLMs, specially when it comes to long-form generation. %This paper systematically evaluates multilingual LLMs' factual accuracy across languages and geographic regions. We introduce a simple pipeline for multilingual factuality evaluation, by applying FActScore (Min et al., 2023) for diverse languages. In addition to evaluating multilingual factual generation, we evaluate the factual accuracy of long-form text generation in topics that reflect regional diversity. We also examine the feasibility of running the FActScore pipeline using non-English Wikipedia and provide comprehensive guidelines on multilingual factual evaluation for regionally diverse topics.
- Abstract(参考訳): 長文大言語モデル(LLM)生成テキストの事実性を評価することは重要な課題である。
近年、英語の事実性評価への関心が高まっているが、多言語LLMの事実性評価についてはほとんど分かっていない。
%) 言語と地理的領域の多言語LLMの事実的精度を体系的に評価した。
多様な言語にFActScore(Min et al , 2023)を適用することで,多言語事実性評価のための簡易パイプラインを提案する。
本研究は,多言語事実生成の評価に加えて,地域多様性を反映したトピックにおいて,長文テキスト生成の事実精度を評価する。
また、非英語ウィキペディアを用いたFActScoreパイプラインの実行可能性についても検討し、地域的に多様なトピックに対する多言語事実評価に関する包括的なガイドラインを提供する。
関連論文リスト
- Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs [31.893686987768742]
言語モデルは、言語全体で同じ事実に答える能力に矛盾する。
モデルがクエリに一貫して答える能力と、複数の言語で共有された表現で'ストア'する能力の2つの側面から、多言語的な事実知識を探求する。
論文 参考訳(メタデータ) (2024-08-20T08:38:30Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models [7.615938028813914]
Retrieval Augmented Generation (RAG)により、Large Language Models (LLM) は情報検索において重要な役割を担っている。
RAGに基づく情報検索において,LLMの言語的嗜好について検討した。
その結果,LLMは問合せ言語と同一言語における情報に対して,情報検索と回答生成の両方において,体系的な偏りを示した。
論文 参考訳(メタデータ) (2024-07-07T21:26:36Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - An Analysis of Multilingual FActScore [45.48784238480873]
FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
論文 参考訳(メタデータ) (2024-06-20T18:09:40Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。