論文の概要: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
- arxiv url: http://arxiv.org/abs/2511.21401v1
- Date: Wed, 26 Nov 2025 13:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.124622
- Title: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
- Title(参考訳): LLMは、証拠に基づく事実チェックのための人間のようなきめ細かい証拠を抽出できるのか?
- Authors: Antonín Jarolím, Martin Fajčík, Lucia Makaiová,
- Abstract要約: 本稿では,チェコとスロバキアの主張に対するきめ細かい証拠抽出に焦点を当てた。
有償アノテータが作成した2方向の微粒なエビデンスを含む新しいデータセットを作成します。
我々は、このデータセット上で大きな言語モデル(LLM)を評価し、人間のアノテーションとの整合性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
- Abstract(参考訳): 誤情報はしばしばオンラインニュース記事の下でユーザーコメントに広まり、事実的に誤った情報を検出する効果的な方法の必要性を強調している。
このようなコメントから抽出された主張を強く支持または反論するためには、関連する文書を識別し、それぞれの主張を正当化または矛盾する正確なテキストスパンを特定する必要がある。
本稿では,チェコとスロバキアの主張に対するきめ細かい証拠抽出という,後者の課題に焦点をあてる。
有償アノテータが作成した2方向の微粒なエビデンスを含む新しいデータセットを作成します。
我々は、このデータセット上で大きな言語モデル(LLM)を評価し、人間のアノテーションとの整合性を評価する。
その結果、LLMはソーステキストから冗長なエビデンスをコピーするのに失敗し、不正な出力につながることが判明した。
Error-rate 解析により、比較的小さなサイズにもかかわらず {llama3.1:8b モデルは高い割合の正しい出力を達成し、一方 gpt-oss-120b モデルは多くのパラメータを持つにもかかわらず性能が低下することが示された。
さらに、qwen3:14b、deepseek-r1:32b、gpt-oss:20bは、モデルサイズと人間のアノテーションとのアライメントの効果的なバランスを示す。
関連論文リスト
- (Fact) Check Your Bias [0.0]
パラメトリック知識バイアスがHerOシステム(FEVER-25のベースライン)の事実チェック結果に与える影響について検討する。
Llama 3.1は、直接、事実検証を行うよう促されたとき、その主張の半分近くを"Not Enough Evidence"とラベル付けしている。
第2の実験では,支持,反感,中立性のある事実チェック文書を生成するようモデルに促す。この結果から得られた証拠の約50%は,各視点に固有のものであるとともに,検索結果に大きく影響する。
得られた証拠の相違にもかかわらず、最終的な判定予測は、迅速な戦略をまたいだ安定性を示す。
論文 参考訳(メタデータ) (2025-06-26T20:03:58Z) - Improving the fact-checking performance of language models by relying on their entailment ability [3.371541812350348]
本稿では,ファクトチェックのために,エンコーダのみの言語モデル(ELM)を訓練するための簡易かつ効果的な手法を提案する。
我々は厳密な実験を行い、我々のアプローチを最近の研究と比べ、アプローチの優位性を実証するために様々なプロンプトと微調整の戦略を実践した。
論文 参考訳(メタデータ) (2025-05-21T03:15:06Z) - Self-Adaptive Paraphrasing and Preference Learning for Improved Claim Verifiability [9.088303226909277]
事実チェックにおいて、クレームの構造と言い換えは、モデルの判断を正確に予測する能力に重大な影響を及ぼす。
ラベル付きトレーニングデータに依存しないクレームを抽出する自己適応型手法を提案する。
本稿では,従来のソーシャルメディアの定式化よりも検証可能なクレームパラフレーズを抽出した。
論文 参考訳(メタデータ) (2024-12-16T10:54:57Z) - Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Making Document-Level Information Extraction Right for the Right Reasons [19.00249049142611]
文書レベルの情報抽出は、情報が必ずしも1つの文でローカライズされないアプリケーションと互換性のある柔軟なフレームワークである。
この研究は、文書レベルのニューラルモデルが複雑なテキストから正しい推論を行い、それらの推論を監査可能な方法で確実にする方法を研究する。
論文 参考訳(メタデータ) (2021-10-14T19:52:47Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。