論文の概要: Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature
of Aggregated Factual Claims in Long-Form Generations
- arxiv url: http://arxiv.org/abs/2402.05629v2
- Date: Fri, 23 Feb 2024 11:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:19:31.253652
- Title: Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature
of Aggregated Factual Claims in Long-Form Generations
- Title(参考訳): ファクトの融合, 偽造: 長期世代における集合的事実の矛盾性の評価
- Authors: Cheng-Han Chiang, Hung-yi Lee
- Abstract要約: FActScoreや引用リコールなどの既存の事実精度指標は,非事実項の事実性を適切に評価できないことを示す。
我々は、曖昧なエンティティを持つコンテンツに特化して設計された拡張メトリックD-FActScoreを導入する。
- 参考スコア(独自算出の注目度): 75.49360351036773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form generations from large language models (LLMs) contains a mix of
factual and non-factual claims, making evaluating factuality difficult. To
evaluate factual precision of long-form generations in a more fine-grained way,
prior works propose to decompose long-form generations into multiple verifiable
facts and verify those facts independently. The factuality of the generation is
the proportion of verifiable facts among all the facts. Such methods assume
that combining factual claims forms a factual paragraph. This paper shows that
the assumption can be violated due to entity ambiguity. We show that LLMs can
generate paragraphs that contain verifiable facts, but the facts are combined
to form a non-factual paragraph due to entity ambiguity. We further reveal that
existing factual precision metrics, including FActScore and citation recall,
cannot properly evaluate the factuality of these non-factual paragraphs. To
address this, we introduce an enhanced metric, D-FActScore, specifically
designed for content with ambiguous entities. We evaluate the D-FActScores of
people biographies generated with retrieval-augmented generation (RAG). We show
that D-FActScore can better assess the factuality of paragraphs with entity
ambiguity than FActScore. We also find that four widely used open-source LLMs
tend to mix information of distinct entities to form non-factual paragraphs.
- Abstract(参考訳): 大規模言語モデル(llm)からの長期世代は、事実性と非事実性が混在しており、事実性の評価が困難である。
よりきめ細かい方法で長方形世代の事実精度を評価するために、先行研究は長方形世代を複数の検証可能な事実に分解し、それらの事実を独立に検証することを提案する。
生成の事実は、すべての事実の中で検証可能な事実の割合である。
このような方法は、事実クレームの組み合わせが事実クレームを形成すると仮定する。
本稿では,エンティティのあいまいさから仮定を破ることができることを示す。
LLMは、検証可能な事実を含む段落を生成することができるが、実体的曖昧さのため、事実が組み合わさって非事実的段落を形成する。
さらに、FActScoreや引用リコールを含む既存の事実精度指標が、これらの非事実項の事実性を適切に評価できないことも明らかにした。
そこで本研究では,不明瞭なエンティティを持つコンテンツを対象とした拡張メトリックD-FActScoreを提案する。
検索増強世代(RAG)で生成された人物のD-FActScoresを評価する。
D-FActScore は FActScore よりもエンティティの曖昧さで段落の事実性を評価することができることを示す。
また,4つのオープンソース LLM が,異なるエンティティの情報を混合して非実数項を形成する傾向にあることも確認した。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language
Inference and Claim Extraction [92.2477303232719]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Towards Verifiable Text Generation with Evolving Memory and
Self-Reflection [30.72180909680164]
検証可能なテキスト生成は、大規模な言語モデルに対して、精度検証のための引用付きコンテンツを生成するよう促す。
しかし、フォーカスシフト現象、クレームを正しい引用と整合させるために必要な複雑な推論、検索された文書の精度と幅の間のジレンマのため、検証可能なテキスト生成は簡単ではない。
本稿では、記憶と自己回帰を進化させる検証可能なテキスト生成のための革新的なフレームワークであるVTGを紹介する。
論文 参考訳(メタデータ) (2023-12-14T16:10:56Z) - Language Models Hallucinate, but May Excel at Fact Verification [95.57276329141618]
大規模言語モデル(LLM)はしばしば「ハロシン化(hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Probing Factually Grounded Content Transfer with Factual Ablation [68.78413677690321]
グラウンドドジェネレーションは、事実情報の信頼性のある外部文書(グラウンドディング)に描画する。
事実を計測するのも簡単で、すべての事実ではなく、世代が根拠に同意するかどうかをテストする。
本稿では,現実的な根拠からの情報を用いて,世代がプロンプトを拡大するコンテンツ転送問題について検討する。
論文 参考訳(メタデータ) (2022-03-18T19:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。