論文の概要: OpenFActScore: Open-Source Atomic Evaluation of Factuality in Text Generation
- arxiv url: http://arxiv.org/abs/2507.05965v1
- Date: Tue, 08 Jul 2025 13:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.131145
- Title: OpenFActScore: Open-Source Atomic Evaluation of Factuality in Text Generation
- Title(参考訳): OpenFActScore: テキスト生成におけるファクチュアリティのオープンソースアトミック評価
- Authors: Lucas Fonseca Lage, Simon Ostermann,
- Abstract要約: 我々は,大規模言語モデル(LLM)が生成するテキストの事実性を評価するための,FActScoreフレームワークのオープンソース実装であるOpenFActScoreを紹介する。
FActScoreは、個々の事実クレームを抽出するためにAtomic Fact Generation (AFG) とAtomic Fact Validation (AFV) を用いて、信頼された知識ソースに対する各クレームを検証することによって、長文の事実精度を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce OpenFActScore, an open-source implementation of the FActScore framework for evaluating the factuality of text generated by large language models (LLMs). FActScore evaluates the factual accuracy of long-form text by using Atomic Fact Generation (AFG) to extract individual factual claims and Atomic Fact Validation (AFV) to verify each claim against a trusted knowledge source. While the original FActScore relies on closed-source and commercial models such as InstructGPT and ChatGPT, OpenFActScore enables the use of any Hugging Face-compatible model for both AFG and AFV. We provide a detailed technical overview of our implementation, highlighting design choices and modifications made to support open models. We evaluate multiple open-source LLMs on both AFG and AFV using the original FActScore benchmark, reporting BERTScore-F1 for AFG and Error Rate relative to human annotations for AFV. Our results show that open models can approximate the performance of closed-source systems, with Gemma achieving the best overall performance, and our final setup obtains a 0.99 Pearson correlation with the original FActScore experiments. OpenFActScore promotes transparency, reproducibility, and cost-effective evaluation, and is available at: https://github.com/lflage/OpenFActScore.
- Abstract(参考訳): 我々は,大規模な言語モデル(LLM)によって生成されたテキストの事実性を評価するための,FActScoreフレームワークのオープンソース実装であるOpenFActScoreを紹介する。
FActScoreは、個々の事実クレームを抽出するためにAtomic Fact Generation(AFG)とAtomic Fact Validation(AFV)を使用して、信頼された知識ソースに対する各クレームを検証することによって、長文の事実精度を評価する。
オリジナルのFActScoreはInstructGPTやChatGPTのようなクローズドソースおよび商用モデルに依存しているが、OpenFActScoreはAFGとAFVの両方でHugging Face互換モデルを使用することができる。
オープンモデルをサポートするための設計選択と修正を強調しながら、実装の詳細な技術的概要を説明します。
FActScoreベンチマークを用いて,AFG と AFV の両方で複数のオープンソース LLM を評価し,AFV のアノテーションに対する BERTScore-F1 と Error Rate を報告した。
この結果から, オープンモデルでは, Gemmaが最高性能を達成し, FActScore実験とPearsonの0.99の相関関係が得られた。
OpenFActScoreは透明性、再現性、費用対効果の評価を促進し、https://github.com/lflage/OpenFActScoreで利用可能である。
関連論文リスト
- Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - An Analysis of Multilingual FActScore [45.48784238480873]
FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
論文 参考訳(メタデータ) (2024-06-20T18:09:40Z) - Less is More for Improving Automatic Evaluation of Factual Consistency [13.748739666737517]
少数のデータポイントを利用することで、実際にパフォーマンスが向上することを示す。
元のAlignScoreトレーニングデータセットを処理し、ノイズを除去し、頑健なサンプルを増強し、データの10%からなるサブセットを使用して、改善された事実整合性評価モデルをトレーニングする。
実験の結果、LIM-RAは33の試験データセットのうち24の最高スコアを達成し、残りは競争力を維持していることがわかった。
論文 参考訳(メタデータ) (2024-04-09T19:02:12Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations [63.90357081534995]
大型言語モデル(LLM)からの長文生成には、事実と非事実のクレームが混在している。
Llama-chatのような強力なオープンソースモデルは、検証可能な事実を含む段落を生成することができるが、事実はエンティティの曖昧さのため、非現実的な段落にまとめられる。
我々は、曖昧なエンティティを持つコンテンツに特化して設計された拡張メトリックD-FActScoreを導入する。
論文 参考訳(メタデータ) (2024-02-08T12:36:29Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - Bucketized Active Sampling for Learning ACOPF [15.509961352249434]
本稿では,市場浄化アプリケーションの要件を満たすため,Bucketized Active Smpling (BAS)を提案する。
BASは入力ドメインをバケットに分割し、次にサンプルする場所を決定するために取得関数を使用する。
BASはまた、時間とともに増加し減少する適応的な学習率にも依存している。
論文 参考訳(メタデータ) (2022-08-16T02:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。