論文の概要: Large Language Models Require Curated Context for Reliable Political Fact-Checking -- Even with Reasoning and Web Search
- arxiv url: http://arxiv.org/abs/2511.18749v1
- Date: Mon, 24 Nov 2025 04:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.015111
- Title: Large Language Models Require Curated Context for Reliable Political Fact-Checking -- Even with Reasoning and Web Search
- Title(参考訳): 大規模言語モデルは、信頼性の高い政治ファクトチェッキングのためのキュレートされたコンテキストを必要とする -- 推論とWeb検索でさえも。
- Authors: Matthew R. DeVerna, Kai-Cheng Yang, Harry Yaojun Yan, Filippo Menczer,
- Abstract要約: PolitiFactによる6000以上のクレームに対する15の最近の大規模言語モデル (LLM) の評価を行った。
標準モデルは性能が悪く、推論は最小限の利益をもたらし、Web検索は適度な利益しか得られない。
PolitiFactサマリを用いたRAGシステムのマクロF1はモデル変種の平均で233%向上した。
- 参考スコア(独自算出の注目度): 3.282845873351502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have raised hopes for automated end-to-end fact-checking, but prior studies report mixed results. As mainstream chatbots increasingly ship with reasoning capabilities and web search tools -- and millions of users already rely on them for verification -- rigorous evaluation is urgent. We evaluate 15 recent LLMs from OpenAI, Google, Meta, and DeepSeek on more than 6,000 claims fact-checked by PolitiFact, comparing standard models with reasoning- and web-search variants. Standard models perform poorly, reasoning offers minimal benefits, and web search provides only moderate gains, despite fact-checks being available on the web. In contrast, a curated RAG system using PolitiFact summaries improved macro F1 by 233% on average across model variants. These findings suggest that giving models access to curated high-quality context is a promising path for automated fact-checking.
- Abstract(参考訳): 大規模言語モデル(LLM)は、エンドツーエンドのファクトチェックの自動化を期待している。
メインストリームのチャットボットは、推論機能やWeb検索ツール、すでに数百万のユーザーが検証に利用しているため、厳格な評価が急務だ。
OpenAI、Google、Meta、DeepSeekの15のLLMを、PolitiFactが6000以上の主張を事実チェックし、標準的なモデルと推論とWeb検索の亜種を比較した。
標準モデルはパフォーマンスが悪く、推論は最小限の利益をもたらし、Web検索は、事実チェックがWebで利用可能であるにもかかわらず、適度な利益しか得られない。
対照的に、PoitiFactサマリを用いたRAGシステムは、モデル変種の平均でマクロF1を233%改善した。
これらの結果から,モデルに高品質なコンテキストへのアクセスを与えることが,ファクトチェックの自動化にとって有望な方法であることが示唆された。
関連論文リスト
- ClaimCheck: Real-Time Fact-Checking with Small Language Models [5.305110876082343]
ClaimCheckは、現実のクレームを検証するために設計されたLLM誘導のファクトチェックシステムである。
大規模なクローズドソースモデルに依存する従来のシステムとは異なり、ClaymCheckは透過的でステップワイズな検証パイプラインを採用している。
各モジュールは小さなLLMに最適化されており、システムは正確で解釈可能なファクトチェックを提供することができる。
論文 参考訳(メタデータ) (2025-09-22T21:18:08Z) - Scaling Truth: The Confidence Paradox in AI Fact-Checking [0.8201655885319955]
大規模言語モデル(LLM)は事実検証の自動化を約束するが、グローバルな文脈での有効性は不確実である。
我々はこれまでに47言語174のファクトチェック組織で評価された5000のクレームを用いて,複数のカテゴリにまたがる9つの確立されたLCMを体系的に評価した。
より小さいモデルでは精度が低いにもかかわらず高い信頼性を示す一方、より大きなモデルは高い精度を示すが、信頼性は低い。
論文 参考訳(メタデータ) (2025-09-10T17:36:25Z) - A Generative-AI-Driven Claim Retrieval System Capable of Detecting and Retrieving Claims from Social Media Platforms in Multiple Languages [1.3331869040581863]
本研究は, 事実チェック済みのクレームを検索し, 所定のインプットとの関連性を評価し, 事実チェックを支援するための補助情報を提供するアプローチを提案する。
提案手法では,無関係な事実チェックをフィルタリングし,簡潔な要約と説明を生成するために,大規模言語モデル(LLM)を用いる。
以上の結果から,LCMは無関係なファクトチェックの多くをフィルタリングし,労力を削減し,ファクトチェックプロセスを合理化できることが示唆された。
論文 参考訳(メタデータ) (2025-04-29T11:49:05Z) - Large Language Models Are Better Logical Fallacy Reasoners with Counterargument, Explanation, and Goal-Aware Prompt Formulation [2.4073494101588273]
本研究は,論理的誤り検出のための新規かつ効果的な高速な定式化手法を提案する。
提案手法は暗黙の文脈情報を含む入力テキストを豊かにすることで,議論の文脈内での妥当性を問う。
5つのドメインから複数のデータセットにまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-30T08:41:09Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。