論文の概要: UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.14690v1
- Date: Thu, 22 Feb 2024 16:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:35:10.404953
- Title: UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models
- Title(参考訳): UFO:大規模言語モデルの現実性を評価する統一的で柔軟なフレームワーク
- Authors: Zhaoheng Huang, Zhicheng Dou, Yutao Zhu, Ji-rong Wen
- Abstract要約: 大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
- 参考スコア(独自算出の注目度): 73.73303148524398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) may generate text that lacks consistency with
human knowledge, leading to factual inaccuracies or \textit{hallucination}.
Existing research for evaluating the factuality of LLMs involves extracting
fact claims using an LLM and verifying them against a predefined fact source.
However, these evaluation metrics are task-specific, and not scalable, and the
substitutability of fact sources in different tasks is under-explored. To
address these challenges, we categorize four available fact sources:
human-written evidence, reference documents, search engine results, and LLM
knowledge, along with five text generation tasks containing six representative
datasets. Then, we propose \texttt{UFO}, an LLM-based unified and flexible
evaluation framework to verify facts against plug-and-play fact sources. We
implement five evaluation scenarios based on this framework. Experimental
results show that for most QA tasks, human-written evidence and reference
documents are crucial, and they can substitute for each other in
retrieval-augmented QA tasks. In news fact generation tasks, search engine
results and LLM knowledge are essential. Our dataset and code are available at
\url{https://github.com/WaldenRUC/UFO}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実の不正確さや‘textit{hallucination}’につながる。
LLMの事実性を評価するための既存の研究は、LCMを使用して事実クレームを抽出し、事前に定義された事実ソースに対して検証することを含む。
しかし,これらの評価指標はタスク固有のものであり,拡張性はない。
これらの課題に対処するために、私たちは4つの利用可能な事実ソースを分類する: 人文による証拠、参照文書、検索エンジンの結果、llm知識、および6つの代表的なデータセットを含む5つのテキスト生成タスク。
そこで本研究では,LLMをベースとした統一・フレキシブルな評価フレームワークである‘texttt{UFO} を提案する。
このフレームワークに基づいた評価シナリオを5つ実装する。
実験の結果、ほとんどのQAタスクでは、人間による証拠や参考文書が重要であり、検索強化されたQAタスクでは相互に代用できることがわかった。
ニュース事実生成タスクでは,検索結果とLLM知識が不可欠である。
我々のデータセットとコードは \url{https://github.com/WaldenRUC/UFO} で利用可能です。
関連論文リスト
- Unstructured Evidence Attribution for Long Context Query Focused Summarization [46.713307974729844]
大規模言語モデル(LLM)は、ユーザクエリが与えられた場合、非常に長いコンテキストからコヒーレントな要約を生成することができる。
既存のシステムがどのようにして、そのコンテキストから構造化されていない証拠を生成し、適切に引用するのに苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.286323454512996]
大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。
本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。
HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
論文 参考訳(メタデータ) (2024-12-28T07:54:14Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content [13.187520657952263]
大規模言語モデル(LLM)は大量のデータに基づいて訓練されており、そのほとんどは自動的にインターネットから取り除かれる。
トレーニングセットに漏れたかもしれない テストスプリットのモデルを評価する 結論を誤解させる傾向がある
本稿では,質問応答とトピック検索タスクに適したRepLiQAという新しいテストデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:52:54Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。