論文の概要: LiveFact: A Dynamic, Time-Aware Benchmark for LLM-Driven Fake News Detection
- arxiv url: http://arxiv.org/abs/2604.04815v1
- Date: Mon, 06 Apr 2026 16:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.277758
- Title: LiveFact: A Dynamic, Time-Aware Benchmark for LLM-Driven Fake News Detection
- Title(参考訳): LiveFact: LLM駆動フェイクニュース検出のための動的でタイムアウェアなベンチマーク
- Authors: Cheng Xu, Changhong Jin, Yingjie Niu, Nan Yan, Yuke Mei, Shuhao Guan, Liming Chen, M-Tahar Kechadi,
- Abstract要約: 誤情報検出において、現実世界の「戦争の霧」をシミュレートするベンチマークであるLiveFactを紹介する。
LiveFactは、動的で時間的なエビデンスセットを使用して、進化する不完全な情報で推論する能力に関するモデルを評価する。
テストでは、Qwen3-235B-A22BのようなオープンソースのMixture-of-Expertsモデルが、現在ではプロプライエタリな最先端システムに適合または性能を向上していることを示している。
- 参考スコア(独自算出の注目度): 11.420370070522205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of Large Language Models (LLMs) has transformed fake news detection and fact-checking tasks from simple classification to complex reasoning. However, evaluation frameworks have not kept pace. Current benchmarks are static, making them vulnerable to benchmark data contamination (BDC) and ineffective at assessing reasoning under temporal uncertainty. To address this, we introduce LiveFact a continuously updated benchmark that simulates the real-world "fog of war" in misinformation detection. LiveFact uses dynamic, temporal evidence sets to evaluate models on their ability to reason with evolving, incomplete information rather than on memorized knowledge. We propose a dual-mode evaluation: Classification Mode for final verification and Inference Mode for evidence-based reasoning, along with a component to monitor BDC explicitly. Tests with 22 LLMs show that open-source Mixture-of-Experts models, such as Qwen3-235B-A22B, now match or outperform proprietary state-of-the-art systems. More importantly, our analysis finds a significant "reasoning gap." Capable models exhibit epistemic humility by recognizing unverifiable claims in early data slices-an aspect traditional static benchmarks overlook. LiveFact sets a sustainable standard for evaluating robust, temporally aware AI verification.
- Abstract(参考訳): LLM(Large Language Models)の急速な開発により、偽ニュースの検出やファクトチェックのタスクは、単純な分類から複雑な推論へと変化した。
しかし、評価フレームワークはペースを保っていない。
現在のベンチマークは静的であり、ベンチマークデータ汚染(BDC)に対して脆弱であり、時間的不確実性の下での推論を評価するのに効果がない。
これを解決するために,実世界の「戦争の霧」を誤情報検出でシミュレートする,継続的に更新されたベンチマークであるLiveFactを導入する。
LiveFactは動的で時間的なエビデンスセットを使用して、記憶された知識ではなく、進化した不完全な情報を推論する能力に関するモデルを評価する。
本稿では,2つのモード評価手法を提案する。最終検証のための分類モードと証拠に基づく推論のための推論モードと,BDCを明示的に監視するコンポーネントである。
22のLSMによるテストでは、Qwen3-235B-A22BのようなオープンソースのMixture-of-Expertsモデルが、現在では独自の最先端システムに適合または性能を向上している。
さらに重要なこととして、我々の分析は「理にかなっているギャップ」を顕著に示している。
キャパブルモデルは、初期データスライスにおける検証不可能なクレームを認識することで、疫学的な謙虚さを示す。
LiveFactは、堅牢で時間的に認識されたAI検証を評価するための持続可能な標準を設定している。
関連論文リスト
- SAFE: Stepwise Atomic Feedback for Error correction in Multi-hop Reasoning [35.58279719577653]
我々は,非接地型Chain-of-Thought(CoT)を,厳密に検証可能な基底要素列に置き換える動的ベンチマークフレームワークSAFEを提案する。
筆者らのフレームワークは,(1) 列車時検証,(1) 原子エラー分類と知識グラフ(KG) の地下検証パイプラインの確立,最大14% のインスタンスを調査不能と判断,(2) 推論時検証,(2) 検証されたデータセットに基づいてトレーニングされたフィードバックモデルがリアルタイムで非地下ステップを動的に検出する,という2つのフェーズで運用されている。
論文 参考訳(メタデータ) (2026-04-02T12:59:30Z) - V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models [1.424507155580441]
現実の事実は本質的に時間に敏感であり、不規則かつ周期的な変化にさらされている。
V-DyKnowは、視覚言語モデルにおいて、時間に敏感な事実知識を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2026-03-17T14:33:08Z) - INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs [69.11382230669491]
ビデオ証拠(忠実さ)または検証可能な世界知識(事実性)のどちらかに矛盾する結果である幻覚
textscINFACTは、4つのモードでモデルを評価する。
14の代表的なビデオ-LLMの実験では、高ベースモード精度が誘導モードの信頼性に確実に変換されないことが明らかになった。
論文 参考訳(メタデータ) (2026-03-12T03:03:16Z) - Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams [78.9560820155271]
我々は、ストリーミングよりもオンライン適応を評価し、知識を継続的に更新する。
OAKSはOAKS-BABIとOAKS-Novelの2つのデータセットから構成される。
最先端モデルとエージェントメモリシステムはどちらもOAKSにしっかりと適応できない。
論文 参考訳(メタデータ) (2026-03-08T00:38:39Z) - Modeling Uncertainty Trends for Timely Retrieval in Dynamic RAG [35.96258615258145]
本稿では,トークンレベルの不確実性のダイナミクスをモデル化し,最適検索タイミングを決定するトレーニングフリーな手法であるEntropy-Trend Constraint(ETC)を紹介する。
ETCは、検索周波数を減少させながら、強いベースラインを一貫して上回る。
プラグアンドプレイで、モデルに依存しず、既存のデコードパイプラインに簡単に統合できる。
論文 参考訳(メタデータ) (2025-11-13T05:28:02Z) - Are Large Reasoning Models Interruptible? [77.53059044071107]
LRM(Large Reasoning Models)は複雑な推論において優れているが、伝統的に静的な「凍った世界」設定で評価されている。
静的な設定で高い精度を達成できる最先端のLEMでさえ、割り込みやコンテキストの変化に晒された場合、予測不能に失敗する可能性があることを示す。
我々の分析ではさらに、漏れの原因、パニック、自己疑念など、いくつかの新しい障害モードを明らかにしている。
論文 参考訳(メタデータ) (2025-10-13T17:59:35Z) - Towards Real-Time Fake News Detection under Evidence Scarcity [66.58597356379907]
本稿では,リアルタイムフェイクニュース検出のための新しいフレームワークである評価アウェア・セレクション・オブ・エキスパートズ(EASE)を提案する。
EASEは、利用可能な証拠の十分性を評価した意思決定プロセスに適合する。
本稿では,新興ニュースのモデル一般化を限られた証拠で評価するための新しいベンチマークであるRealTimeNews-25を紹介する。
論文 参考訳(メタデータ) (2025-10-13T11:11:46Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts [35.952854524873246]
Dynamic Evidence-based FAct-checking with Multimodal Experts (DEFAME)は、オープンドメイン、テキストイメージクレーム検証のためのゼロショットMLLMパイプラインである。
DEFAMEは6段階のプロセスで動作し、ツールと検索深度を動的に選択し、テキストおよび視覚的証拠を抽出し、評価する。
論文 参考訳(メタデータ) (2024-12-13T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。