論文の概要: RealFactBench: A Benchmark for Evaluating Large Language Models in Real-World Fact-Checking
- arxiv url: http://arxiv.org/abs/2506.12538v1
- Date: Sat, 14 Jun 2025 15:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.416732
- Title: RealFactBench: A Benchmark for Evaluating Large Language Models in Real-World Fact-Checking
- Title(参考訳): RealFactBench: 実世界のFact-Checkingにおける大規模言語モデル評価ベンチマーク
- Authors: Shuo Yang, Yuqin Dai, Guoqing Wang, Xinran Zheng, Jinfeng Xu, Jinze Li, Zhenzhe Ying, Weiqiang Wang, Edith C. H. Ngai,
- Abstract要約: 本稿では,Large Language Models(LLM)とMultimodal Large Language Models(MLLM)のファクトチェック機能を評価するためのベンチマークであるRealFactBenchを紹介する。
RealFactBenchは、権威のあるソースから引き出された6Kの高品質なクレームで構成され、マルチモーダルコンテンツと多様なドメインを含んでいる。
評価フレームワークはさらにUnknown Rate(UnR)メトリクスを導入し、不確実性を扱うモデルの能力をよりきめ細やかな評価を可能にします。
- 参考スコア(独自算出の注目度): 31.02873474960849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) hold significant potential for advancing fact-checking by leveraging their capabilities in reasoning, evidence retrieval, and explanation generation. However, existing benchmarks fail to comprehensively evaluate LLMs and Multimodal Large Language Models (MLLMs) in realistic misinformation scenarios. To bridge this gap, we introduce RealFactBench, a comprehensive benchmark designed to assess the fact-checking capabilities of LLMs and MLLMs across diverse real-world tasks, including Knowledge Validation, Rumor Detection, and Event Verification. RealFactBench consists of 6K high-quality claims drawn from authoritative sources, encompassing multimodal content and diverse domains. Our evaluation framework further introduces the Unknown Rate (UnR) metric, enabling a more nuanced assessment of models' ability to handle uncertainty and balance between over-conservatism and over-confidence. Extensive experiments on 7 representative LLMs and 4 MLLMs reveal their limitations in real-world fact-checking and offer valuable insights for further research. RealFactBench is publicly available at https://github.com/kalendsyang/RealFactBench.git.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論、エビデンス検索、説明生成におけるそれらの能力を活用することにより、ファクトチェックを進める大きな可能性を秘めている。
しかし、既存のベンチマークでは、現実的な誤情報シナリオにおいて LLM と Multimodal Large Language Models (MLLM) を包括的に評価することができない。
このギャップを埋めるために、私たちはRealFactBenchを紹介します。これは、知識検証、噂検出、イベント検証を含む様々な現実世界のタスクにおいて、LLMとMLLMの事実チェック能力を評価するために設計された包括的なベンチマークです。
RealFactBenchは、権威のあるソースから引き出された6Kの高品質なクレームで構成され、マルチモーダルコンテンツと多様なドメインを含んでいる。
我々の評価フレームワークは、さらにUnknown Rate(UnR)メトリクスを導入し、過剰保守主義と過信の間の不確実性とバランスを扱うモデルの能力をよりきめ細やかな評価を可能にします。
7つの代表的なLSMと4つのMLLMに関する大規模な実験は、現実世界のファクトチェックにおける限界を明らかにし、さらなる研究に有用な洞察を提供する。
RealFactBenchはhttps://github.com/kalendsyang/RealFactBench.gitで公開されている。
関連論文リスト
- Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。
ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。
実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-18T17:51:34Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models [17.052740348747424]
大規模視覚言語モデル(LVLM)はマルチモーダル推論タスクを大幅に改善した。
これらのモデルは、事実情報を明示的に格納するために外部知識ベースに頼るのではなく、パラメータ内にマルチモーダルな事実を埋め込む。
しかし、LVLMによって識別される内容は、固有のバイアスや誤った推論のために事実性から逸脱する可能性がある。
MFC-Benchは,3段階の検証予測において,LVLMの実際の精度を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-06-17T07:51:44Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。