論文の概要: Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking
- arxiv url: http://arxiv.org/abs/2601.02669v1
- Date: Tue, 06 Jan 2026 02:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.779659
- Title: Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking
- Title(参考訳): Fact-Checkingにおける大規模言語モデルの総合的な段階的ベンチマークに向けて
- Authors: Hongzhan Lin, Zixin Chen, Zhiqi Shen, Ziyang Luo, Zhen Ye, Jing Ma, Tat-Seng Chua, Guandong Xu,
- Abstract要約: 大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
- 参考スコア(独自算出の注目度): 64.97768177044355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in real-world fact-checking systems, yet existing evaluations focus predominantly on claim verification and overlook the broader fact-checking workflow, including claim extraction and evidence retrieval. This narrow focus prevents current benchmarks from revealing systematic reasoning failures, factual blind spots, and robustness limitations of modern LLMs. To bridge this gap, we present FactArena, a fully automated arena-style evaluation framework that conducts comprehensive, stage-wise benchmarking of LLMs across the complete fact-checking pipeline. FactArena integrates three key components: (i) an LLM-driven fact-checking process that standardizes claim decomposition, evidence retrieval via tool-augmented interactions, and justification-based verdict prediction; (ii) an arena-styled judgment mechanism guided by consolidated reference guidelines to ensure unbiased and consistent pairwise comparisons across heterogeneous judge agents; and (iii) an arena-driven claim-evolution module that adaptively generates more challenging and semantically controlled claims to probe LLMs' factual robustness beyond fixed seed data. Across 16 state-of-the-art LLMs spanning seven model families, FactArena produces stable and interpretable rankings. Our analyses further reveal significant discrepancies between static claim-verification accuracy and end-to-end fact-checking competence, highlighting the necessity of holistic evaluation. The proposed framework offers a scalable and trustworthy paradigm for diagnosing LLMs' factual reasoning, guiding future model development, and advancing the reliable deployment of LLMs in safety-critical fact-checking applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます導入されているが、既存の評価は主にクレーム検証に焦点を当て、クレーム抽出やエビデンス検索を含むより広範なファクトチェックワークフローを見落としている。
この狭い焦点は、現在のベンチマークが、体系的な推論失敗、現実的な盲点、そして現代のLLMの堅牢性制限を明らかにするのを妨げている。
このギャップを埋めるために、フル自動化されたアリーナスタイルの評価フレームワークであるFactArenaを紹介します。
FactArenaは3つの重要なコンポーネントを統合している。
一 クレームの分解を標準化するLCMによる事実確認方法、ツール強化された相互作用による証拠検索、正当化に基づく検証予測
二 異種審査員間での無バイアスで一貫した対等な比較を確保するための統合基準ガイドラインにより導かれるアリーナ式判定機構
三 固定された種データを超えたLLMの事実的堅牢性を探索するために、より困難で意味的に制御されたクレームを適応的に生成するアリーナ駆動クレーム進化モジュール。
16の最先端のLLMが7つのモデルファミリーにまたがっており、FactArenaは安定かつ解釈可能なランキングを生み出している。
さらに,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにし,総合的な評価の必要性を明らかにした。
提案するフレームワークは,LCMの事実推論の診断,将来のモデル開発の指針,安全性に重要な事実チェックアプリケーションにおけるLCMの信頼性向上のための,スケーラブルで信頼性の高いパラダイムを提供する。
関連論文リスト
- Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency [7.806516365113592]
大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
論文 参考訳(メタデータ) (2026-01-05T21:57:41Z) - SSR: Socratic Self-Refine for Large Language Model Reasoning [78.62319252287938]
Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。
提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。
5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
論文 参考訳(メタデータ) (2025-11-13T18:47:07Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。