論文の概要: An Analysis of Multilingual FActScore
- arxiv url: http://arxiv.org/abs/2406.19415v1
- Date: Thu, 20 Jun 2024 18:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-07 13:43:41.770702
- Title: An Analysis of Multilingual FActScore
- Title(参考訳): 多言語FActScoreの解析
- Authors: Kim Trong Vu, Michael Krumdick, Varshini Reddy, Franck Dernoncourt, Viet Dac Lai,
- Abstract要約: FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
- 参考スコア(独自算出の注目度): 45.48784238480873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: FActScore has gained popularity as a metric to estimate the factuality of long-form texts generated by Large Language Models (LLMs) in English. However, there has not been any work in studying the behavior of FActScore in other languages. This paper studies the limitations of each component in the four-component pipeline of FActScore in the multilingual setting. We introduce a new dataset for FActScore on texts generated by strong multilingual LLMs. Our evaluation shows that LLMs exhibit distinct behaviors in both fact extraction and fact scoring tasks. No LLM produces consistent and reliable FActScore across languages with varying levels of resources. We also find that the knowledge source plays an important role in the quality of the estimated FActScore. Using Wikipedia as the knowledge source may hinder the true FActScore of long-form text due to its limited coverage in medium- and low-resource languages. We also incorporate three mitigations to our knowledge source that ultimately improve FActScore estimation across all languages.
- Abstract(参考訳): FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
しかし、他の言語でFActScoreの振る舞いを研究する研究は行われていない。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
強い多言語 LLM で生成されたテキストに FActScore の新しいデータセットを導入する。
評価の結果, LLMは, 事実抽出と事実採点の両方において, 異なる行動を示すことが明らかとなった。
LLMは、さまざまなレベルのリソースを持つ言語間で一貫性があり信頼性の高いFActScoreを生成しない。
また,評価されたFActScoreの品質において,知識源が重要な役割を担っていることも確認した。
ウィキペディアを知識源として使うことは、中級言語と低級言語のカバー範囲が限られているため、長文の真のFActScoreを妨げる可能性がある。
また、すべての言語でのFActScore推定を改善するために、知識ソースに3つの軽減策を組み込んでいます。
関連論文リスト
- Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using
FActScore [16.295418365993033]
大規模言語モデル(LLM)は、確立された知識と矛盾するテキストを生成するために、事実の幻覚を起こす傾向がある。
本稿では,言語と地理的領域をまたいだ多言語LLMの事実的精度を体系的に評価する。
論文 参考訳(メタデータ) (2024-02-28T04:43:46Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations [63.90357081534995]
大型言語モデル(LLM)からの長文生成には、事実と非事実のクレームが混在している。
Llama-chatのような強力なオープンソースモデルは、検証可能な事実を含む段落を生成することができるが、事実はエンティティの曖昧さのため、非現実的な段落にまとめられる。
我々は、曖昧なエンティティを持つコンテンツに特化して設計された拡張メトリックD-FActScoreを導入する。
論文 参考訳(メタデータ) (2024-02-08T12:36:29Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。