論文の概要: Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations
- arxiv url: http://arxiv.org/abs/2402.05629v4
- Date: Fri, 7 Jun 2024 02:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:07:34.175977
- Title: Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations
- Title(参考訳): ファクティクスとファクティクスの融合: 長期世代における集合的ファクティカルクレームのコントラクティクティヴな性質の評価
- Authors: Cheng-Han Chiang, Hung-yi Lee,
- Abstract要約: 大型言語モデル(LLM)からの長文生成には、事実と非事実のクレームが混在している。
Llama-chatのような強力なオープンソースモデルは、検証可能な事実を含む段落を生成することができるが、事実はエンティティの曖昧さのため、非現実的な段落にまとめられる。
我々は、曖昧なエンティティを持つコンテンツに特化して設計された拡張メトリックD-FActScoreを導入する。
- 参考スコア(独自算出の注目度): 63.90357081534995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form generations from large language models (LLMs) contain a mix of factual and non-factual claims, making evaluating factuality difficult. Prior works evaluate the factuality of a long paragraph by decomposing it into multiple facts, verifying those facts independently, and aggregating the results. Such methods assume that combining factual claims forms a factual paragraph. The above assumption can be violated: we show that strong open-source models like Llama-chat can generate paragraphs that contain verifiable facts, but the facts are combined into a non-factual paragraph due to entity ambiguity. We further reveal that existing factuality metrics, including FActScore and citation recall, cannot properly evaluate these non-factual paragraphs and overestimate their factuality. To address this, we introduce an enhanced metric, D-FActScore, specifically designed for content with ambiguous entities. We evaluate the D-FActScores of people biographies generated by retrieval-augmented LLMs. We show that D-FActScore can better assess the factuality of paragraphs with entity ambiguity than FActScore. We also find that four widely used open-source LLMs tend to mix information of distinct entities to form non-factual paragraphs, making their D-FActScore much lower than FActScore by over 10%.
- Abstract(参考訳): 大規模言語モデル(LLM)からの長文生成には、事実と非事実のクレームが混在しており、事実性を評価するのが困難である。
先行研究は、複数の事実に分解し、これらの事実を独立して検証し、結果を集約することで、長い段落の事実性を評価する。
このような手法は、事実的クレームの組み合わせが事実的段落を形成すると仮定する。
Llama-chatのような強力なオープンソースモデルは、検証可能な事実を含む段落を生成することができるが、事実はエンティティの曖昧さのため、非現実的な段落にまとめられる。
さらに、FActScoreや引用リコールを含む既存の事実度指標は、これらの非事実度を適切に評価することができず、事実度を過大評価できないことも明らかにした。
そこで本研究では,不明瞭なエンティティを持つコンテンツを対象とした拡張メトリックD-FActScoreを提案する。
我々は,LLMの検索により生み出した人物のD-FActScoresを評価する。
D-FActScore は FActScore よりもエンティティの曖昧さで段落の事実性を評価することができることを示す。
また、4つのオープンソース LLM が、異なるエンティティの情報を混合して非現実的な段落を形成する傾向にあり、D-FActScore が FActScore よりも10% 以上低くなっていることもわかりました。
関連論文リスト
- An Analysis of Multilingual FActScore [45.48784238480873]
FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
論文 参考訳(メタデータ) (2024-06-20T18:09:40Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。