論文の概要: OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2405.05583v1
- Date: Thu, 9 May 2024 07:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:02:33.636303
- Title: OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs
- Title(参考訳): OpenFactCheck: LLMのファクチュアリティ評価のための統一フレームワーク
- Authors: Yuxia Wang, Minghan Wang, Hasan Iqbal, Georgi Georgiev, Jiahui Geng, Preslav Nakov,
- Abstract要約: OpenFactCheckは、大規模な言語モデルのための統合された事実性評価フレームワークである。
OpenFactCheckは、 (i) CUSTCHECKER、 (ii) LLMEVAL、 (iii) CHECKEREVALの3つのモジュールから構成される。
- 参考スコア(独自算出の注目度): 27.89053798151106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased use of large language models (LLMs) across a variety of real-world applications calls for mechanisms to verify the factual accuracy of their outputs. Difficulties lie in assessing the factuality of free-form responses in open domains. Also, different papers use disparate evaluation benchmarks and measurements, which renders them hard to compare and hampers future progress. To mitigate these issues, we propose OpenFactCheck, a unified factuality evaluation framework for LLMs. OpenFactCheck consists of three modules: (i) CUSTCHECKER allows users to easily customize an automatic fact-checker and verify the factual correctness of documents and claims, (ii) LLMEVAL, a unified evaluation framework assesses LLM's factuality ability from various perspectives fairly, and (iii) CHECKEREVAL is an extensible solution for gauging the reliability of automatic fact-checkers' verification results using human-annotated datasets. OpenFactCheck is publicly released at https://github.com/yuxiaw/OpenFactCheck.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実世界の様々なアプリケーションにまたがって使われるようになると、出力の実際の正確性を検証するメカニズムが要求される。
困難は、オープンドメインにおける自由形式の応答の事実性を評価することである。
また、異なる論文では、異なる評価ベンチマークと測定を使用しており、比較が難しく、今後の進歩を妨げている。
これらの問題を緩和するため、我々はLLMのための統合現実性評価フレームワークであるOpenFactCheckを提案する。
OpenFactCheckは3つのモジュールから構成される。
(i)CUSTCHECKERにより、自動ファクトチェッカーを容易にカスタマイズし、文書やクレームの事実的正当性を検証することができる。
(二)LLMEVAL(統一評価フレームワーク)は、LLMの事実性を様々な観点から公平に評価し、
三)CHECKEREVALは、人手による注釈付きデータセットを用いて、自動ファクトチェッカーの検証結果の信頼性を高めるための拡張可能なソリューションである。
OpenFactCheckはhttps://github.com/yuxiaw/OpenFactCheck.comで公開されている。
関連論文リスト
- CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks [15.60762281287532]
大きな言語モデル(LLM)は様々なドメインに革命をもたらしていますが、その答えを検証することは大きな課題です。
本研究では,精度が高く,スケーラブルで,シンプルなLCM検証手法であるCheckEmbedを提案する。
CheckEmbedは、GPT Text Embedding Largeのようなモデルで得られた回答レベルの埋め込みを比較。
論文 参考訳(メタデータ) (2024-06-04T17:42:21Z) - FactCheck Editor: Multilingual Text Editor with End-to-End fact-checking [1.985242455423935]
「FactCheck Editor」は、事実チェックと正しい事実不正確性を自動化するために設計された高度なテキストエディタである。
90以上の言語をサポートし、トランスフォーマーモデルを使用して、人間の労働集約的な事実検証を支援する。
論文 参考訳(メタデータ) (2024-04-30T11:55:20Z) - GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。
システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:45:55Z) - Evidence-based Interpretable Open-domain Fact-checking with Large
Language Models [26.89527395822654]
実世界のシナリオにおけるクレームチェックのためのオープンドメイン説明可能なFact-checking(OE-Fact)システムについて紹介する。
OE-Factシステムは、大規模言語モデル(LLM)の強力な理解と推論能力を利用してクレームを検証できる。
OE-Fact システムは,クローズドドメインとオープンドメインの両方のシナリオにおいて,一般的なファクトチェックベースラインシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-12-10T09:27:50Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。