論文の概要: OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2408.11832v2
- Date: Wed, 6 Nov 2024 18:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:00:04.028586
- Title: OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs
- Title(参考訳): OpenFactCheck: LLMのファクチュアリティ評価のための統一フレームワーク
- Authors: Hasan Iqbal, Yuxia Wang, Minghan Wang, Georgi Georgiev, Jiahui Geng, Iryna Gurevych, Preslav Nakov,
- Abstract要約: OpenFactCheckは、大規模な言語モデルのためのオープンソースのファクトチェックフレームワークである。
ユーザーは自動的にファクトチェックシステムを簡単にカスタマイズできる。
また、そのシステムを用いて、入力文書におけるすべてのクレームの事実性を評価する。
- 参考スコア(独自算出の注目度): 64.25176233153657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased use of large language models (LLMs) across a variety of real-world applications calls for automatic tools to check the factual accuracy of their outputs, as LLMs often hallucinate. This is difficult as it requires assessing the factuality of free-form open-domain responses. While there has been a lot of research on this topic, different papers use different evaluation benchmarks and measures, which makes them hard to compare and hampers future progress. To mitigate these issues, we developed OpenFactCheck, a unified framework, with three modules: (i) RESPONSEEVAL, which allows users to easily customize an automatic fact-checking system and to assess the factuality of all claims in an input document using that system, (ii) LLMEVAL, which assesses the overall factuality of an LLM, and (iii) CHECKEREVAL, a module to evaluate automatic fact-checking systems. OpenFactCheck is open-sourced (https://github.com/mbzuai-nlp/openfactcheck) and publicly released as a Python library (https://pypi.org/project/openfactcheck/) and also as a web service (http://app.openfactcheck.com). A video describing the system is available at https://youtu.be/-i9VKL0HleI.
- Abstract(参考訳): 様々な現実世界のアプリケーションにまたがる大規模言語モデル(LLM)の利用が増加し、LLMが幻覚しているように、アウトプットの実際の正確性をチェックするための自動ツールが求められている。
自由形式のオープンドメイン応答の事実性を評価する必要があるため、これは難しい。
この話題について多くの研究が行われてきたが、異なる論文では異なる評価ベンチマークと測定方法を使用しているため、将来の進歩を比べることは困難である。
これらの問題を緩和するため、私たちは3つのモジュールを持つ統一フレームワークであるOpenFactCheckを開発しました。
(i)RESPONSEEVALは、自動事実確認システムを容易にカスタマイズし、そのシステムを用いて入力文書中のすべてのクレームの事実性を評価することができる。
二 LLMの全体的事実性を評価する LLMEVAL 及び
三 自動事実確認システムを評価するためのモジュール、CECKEREVAL
OpenFactCheckはオープンソース(https://github.com/mbzuai-nlp/openfactcheck)で、Pythonライブラリ(https://pypi.org/project/openfactcheck/)として、Webサービス(http://app.openfactcheck.com)として公開されている。
システムを記述するビデオはhttps://youtu.be/-i9VKL0HleIで公開されている。
関連論文リスト
- HerO at AVeriTeC: The Herd of Open Large Language Models for Verifying Real-World Claims [6.792233590302494]
自動ファクトチェックの各ステップに,公開可能な大規模言語モデル(LLM)のみを利用するシステムを導入する。
証拠検索では、仮説的事実チェック文書を生成することにより、クエリを強化するために言語モデルが使用される。
HerOはAVeriTeCスコア0.57でリーダーボードで2位を獲得し、現実世界のクレームを検証するためのオープンLLMの可能性を示した。
論文 参考訳(メタデータ) (2024-10-16T08:49:17Z) - Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs [9.785096589765908]
ファクトチェックシステムの性能評価には,Averitecデータセットを使用します。
精度予測に加えて,本システムでは,データセットから抽出した証拠を裏付ける。
本システムでは,ベースラインに対する22%の絶対改善である0.33の「平均」スコアを達成している。
論文 参考訳(メタデータ) (2024-08-22T01:42:34Z) - OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs [27.89053798151106]
OpenFactCheckは、大規模な言語モデルのための統合された事実性評価フレームワークである。
OpenFactCheckは、 (i) CUSTCHECKER、 (ii) LLMEVAL、 (iii) CHECKEREVALの3つのモジュールから構成される。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - WikiCheck: An end-to-end open source Automatic Fact-Checking API based
on Wikipedia [1.14219428942199]
我々は、自動Fact-checkingのためのState-of-the-Artデータセットとソリューションについてレビューする。
モデルの性能と一般化を改善するデータフィルタリング手法を提案する。
本稿では,ウィキペディアの知識ベースに基づいたファクトチェックシステムであるtextitWikiCheck APIを提案する。
論文 参考訳(メタデータ) (2021-09-02T10:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。