論文の概要: OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs
- arxiv url: http://arxiv.org/abs/2405.05583v2
- Date: Mon, 16 Dec 2024 08:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:26.715886
- Title: OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs
- Title(参考訳): OpenFactCheck: カスタマイズされたFact-Checkingシステムの構築,ベンチマーク,およびクレームとLCMの実態評価
- Authors: Yuxia Wang, Minghan Wang, Hasan Iqbal, Georgi Georgiev, Jiahui Geng, Preslav Nakov,
- Abstract要約: OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。
ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。
CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
- 参考スコア(独自算出の注目度): 27.89053798151106
- License:
- Abstract: The increased use of large language models (LLMs) across a variety of real-world applications calls for mechanisms to verify the factual accuracy of their outputs. Difficulties lie in assessing the factuality of free-form responses in open domains. Also, different papers use disparate evaluation benchmarks and measurements, which renders them hard to compare and hampers future progress. To mitigate these issues, we propose OpenFactCheck, a unified framework for building customized automatic fact-checking systems, benchmarking their accuracy, evaluating factuality of LLMs, and verifying claims in a document. OpenFactCheck consists of three modules: (i) CUSTCHECKER allows users to easily customize an automatic fact-checker and verify the factual correctness of documents and claims, (ii) LLMEVAL, a unified evaluation framework assesses LLM's factuality ability from various perspectives fairly, and (iii) CHECKEREVAL is an extensible solution for gauging the reliability of automatic fact-checkers' verification results using human-annotated datasets. Data and code are publicly available at https://github.com/yuxiaw/openfactcheck.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実世界の様々なアプリケーションにまたがって使われるようになると、出力の実際の正確性を検証するメカニズムが要求される。
困難は、オープンドメインにおける自由形式の応答の事実性を評価することである。
また、異なる論文では、異なる評価ベンチマークと測定を使用しており、比較が難しく、今後の進歩を妨げている。
これらの問題を緩和するために、カスタマイズされたファクトチェックシステムを構築するための統一フレームワークOpenFactCheckを提案し、その精度をベンチマークし、LCMの事実性を評価し、文書内のクレームを検証する。
OpenFactCheckは3つのモジュールから構成される。
(i)CUSTCHECKERにより、自動ファクトチェッカーを容易にカスタマイズし、文書やクレームの事実的正当性を検証することができる。
(二)LLMEVAL(統一評価フレームワーク)は、LLMの事実性を様々な観点から公平に評価し、
三)CHECKEREVALは、人手による注釈付きデータセットを用いて、自動ファクトチェッカーの検証結果の信頼性を高めるための拡張可能なソリューションである。
データとコードはhttps://github.com/yuxiaw/openfactcheck.comで公開されている。
関連論文リスト
- Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。
この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文 参考訳(メタデータ) (2025-02-17T19:18:23Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs [64.25176233153657]
OpenFactCheckは、大規模な言語モデルのためのオープンソースのファクトチェックフレームワークである。
ユーザーは自動的にファクトチェックシステムを簡単にカスタマイズできる。
また、そのシステムを用いて、入力文書におけるすべてのクレームの事実性を評価する。
論文 参考訳(メタデータ) (2024-08-06T15:49:58Z) - Evidence-based Interpretable Open-domain Fact-checking with Large
Language Models [26.89527395822654]
実世界のシナリオにおけるクレームチェックのためのオープンドメイン説明可能なFact-checking(OE-Fact)システムについて紹介する。
OE-Factシステムは、大規模言語モデル(LLM)の強力な理解と推論能力を利用してクレームを検証できる。
OE-Fact システムは,クローズドドメインとオープンドメインの両方のシナリオにおいて,一般的なファクトチェックベースラインシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-12-10T09:27:50Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。