論文の概要: Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature
of Aggregated Factual Claims in Long-Form Generations
- arxiv url: http://arxiv.org/abs/2402.05629v1
- Date: Thu, 8 Feb 2024 12:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:02:57.825367
- Title: Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature
of Aggregated Factual Claims in Long-Form Generations
- Title(参考訳): ファクトの融合, 偽造: 長期世代における集合的事実の矛盾性の評価
- Authors: Cheng-Han Chiang, Hung-yi Lee
- Abstract要約: FActScoreや引用リコールなどの既存の事実精度指標は,非事実項の事実性を適切に評価できないことを示す。
我々は、曖昧なエンティティを持つコンテンツに特化して設計された拡張メトリックD-FActScoreを導入する。
- 参考スコア(独自算出の注目度): 75.49360351036773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form generations from large language models (LLMs) contains a mix of
factual and non-factual claims, making evaluating factuality difficult. To
evaluate factual precision of long-form generations in a more fine-grained way,
prior works propose to decompose long-form generations into multiple verifiable
facts and verify those facts independently. The factuality of the generation is
the proportion of verifiable facts among all the facts. Such methods assume
that combining factual claims forms a factual paragraph. This paper shows that
the assumption can be violated due to entity ambiguity. We show that LLMs can
generate paragraphs that contain verifiable facts, but the facts are combined
to form a non-factual paragraph due to entity ambiguity. We further reveal that
existing factual precision metrics, including FActScore and citation recall,
cannot properly evaluate the factuality of these non-factual paragraphs. To
address this, we introduce an enhanced metric, D-FActScore, specifically
designed for content with ambiguous entities. We evaluate the D-FActScores of
people biographies generated with retrieval-augmented generation (RAG). We show
that D-FActScore can better assess the factuality of paragraphs with entity
ambiguity than FActScore. We also find that four widely used open-source LLMs
tend to mix information of distinct entities to form non-factual paragraphs.
- Abstract(参考訳): 大規模言語モデル(llm)からの長期世代は、事実性と非事実性が混在しており、事実性の評価が困難である。
よりきめ細かい方法で長方形世代の事実精度を評価するために、先行研究は長方形世代を複数の検証可能な事実に分解し、それらの事実を独立に検証することを提案する。
生成の事実は、すべての事実の中で検証可能な事実の割合である。
このような方法は、事実クレームの組み合わせが事実クレームを形成すると仮定する。
本稿では,エンティティのあいまいさから仮定を破ることができることを示す。
LLMは、検証可能な事実を含む段落を生成することができるが、実体的曖昧さのため、事実が組み合わさって非事実的段落を形成する。
さらに、FActScoreや引用リコールを含む既存の事実精度指標が、これらの非事実項の事実性を適切に評価できないことも明らかにした。
そこで本研究では,不明瞭なエンティティを持つコンテンツを対象とした拡張メトリックD-FActScoreを提案する。
検索増強世代(RAG)で生成された人物のD-FActScoresを評価する。
D-FActScore は FActScore よりもエンティティの曖昧さで段落の事実性を評価することができることを示す。
また,4つのオープンソース LLM が,異なるエンティティの情報を混合して非実数項を形成する傾向にあることも確認した。
関連論文リスト
- An Analysis of Multilingual FActScore [45.48784238480873]
FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
論文 参考訳(メタデータ) (2024-06-20T18:09:40Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。