論文の概要: An Analysis of Multilingual FActScore
- arxiv url: http://arxiv.org/abs/2406.19415v1
- Date: Thu, 20 Jun 2024 18:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-07 13:43:41.770702
- Title: An Analysis of Multilingual FActScore
- Title(参考訳): 多言語FActScoreの解析
- Authors: Kim Trong Vu, Michael Krumdick, Varshini Reddy, Franck Dernoncourt, Viet Dac Lai,
- Abstract要約: FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
- 参考スコア(独自算出の注目度): 45.48784238480873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: FActScore has gained popularity as a metric to estimate the factuality of long-form texts generated by Large Language Models (LLMs) in English. However, there has not been any work in studying the behavior of FActScore in other languages. This paper studies the limitations of each component in the four-component pipeline of FActScore in the multilingual setting. We introduce a new dataset for FActScore on texts generated by strong multilingual LLMs. Our evaluation shows that LLMs exhibit distinct behaviors in both fact extraction and fact scoring tasks. No LLM produces consistent and reliable FActScore across languages with varying levels of resources. We also find that the knowledge source plays an important role in the quality of the estimated FActScore. Using Wikipedia as the knowledge source may hinder the true FActScore of long-form text due to its limited coverage in medium- and low-resource languages. We also incorporate three mitigations to our knowledge source that ultimately improve FActScore estimation across all languages.
- Abstract(参考訳): FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
しかし、他の言語でFActScoreの振る舞いを研究する研究は行われていない。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
強い多言語 LLM で生成されたテキストに FActScore の新しいデータセットを導入する。
評価の結果, LLMは, 事実抽出と事実採点の両方において, 異なる行動を示すことが明らかとなった。
LLMは、さまざまなレベルのリソースを持つ言語間で一貫性があり信頼性の高いFActScoreを生成しない。
また,評価されたFActScoreの品質において,知識源が重要な役割を担っていることも確認した。
ウィキペディアを知識源として使うことは、中級言語と低級言語のカバー範囲が限られているため、長文の真のFActScoreを妨げる可能性がある。
また、すべての言語でのFActScore推定を改善するために、知識ソースに3つの軽減策を組み込んでいます。
関連論文リスト
- Truth Knows No Language: Evaluating Truthfulness Beyond English [11.20320645651082]
本稿では,バスク語,カタルーニャ語,ガリシア語,スペイン語の真正性を評価するために,TrathfulQAベンチマークをプロ翻訳して導入する。
本研究は, 人的評価, 複数選択尺度, LLM-as-a-Judge スコアを用いて, 基礎モデルと指導訓練モデルを比較し, 最先端のオープンLCMを12個評価した。
論文 参考訳(メタデータ) (2025-02-13T15:04:53Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Multi-FAct: Assessing Factuality of Multilingual LLMs using FActScore [14.91669562846729]
多様な言語にFActScoreを適用することで,多言語事実性評価のための簡易パイプラインを提案する。
地域多様性を反映したトピックにおける長文生成の事実的精度を評価する。
論文 参考訳(メタデータ) (2024-02-28T04:43:46Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations [63.90357081534995]
大型言語モデル(LLM)からの長文生成には、事実と非事実のクレームが混在している。
Llama-chatのような強力なオープンソースモデルは、検証可能な事実を含む段落を生成することができるが、事実はエンティティの曖昧さのため、非現実的な段落にまとめられる。
我々は、曖昧なエンティティを持つコンテンツに特化して設計された拡張メトリックD-FActScoreを導入する。
論文 参考訳(メタデータ) (2024-02-08T12:36:29Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。