論文の概要: Verification with Transparency: The TrendFact Benchmark for Auditable Fact-Checking via Natural Language Explanation
- arxiv url: http://arxiv.org/abs/2410.15135v2
- Date: Sun, 06 Apr 2025 15:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 20:14:38.643189
- Title: Verification with Transparency: The TrendFact Benchmark for Auditable Fact-Checking via Natural Language Explanation
- Title(参考訳): 透明度による検証:自然言語説明による聴取可能なFact-CheckingのためのTrendFactベンチマーク
- Authors: Xiaocheng Zhang, Xi Wang, Yifei Lu, Zhuangzhuang Ye, Jianing Wang, Mengjiao Bao, Peng Yan, Xiaohong Su,
- Abstract要約: 我々は、構造化された自然言語の説明を取り入れた最初の中国のファクトチェックベンチマークであるTrendFactを紹介する。
TrendFactは、トレンドのソーシャルメディアコンテンツとプロのファクトチェックレポジトリから、7,643の慎重にキュレートされたサンプルで構成されている。
数値的推論、論理的推論、常識的検証など、様々な推論形式をサポートしている。
- 参考スコア(独自算出の注目度): 10.449165630417522
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While fact verification remains fundamental, explanation generation serves as a critical enabler for trustworthy fact-checking systems by producing interpretable rationales and facilitating comprehensive verification processes. However, current benchmarks exhibit critical limitations in three dimensions: (1) absence of explanatory annotations, (2) English-centric language bias, and (3) inadequate temporal relevance. To bridge these gaps, we present TrendFact, the first Chinese fact-checking benchmark incorporating structured natural language explanations. TrendFact comprises 7,643 carefully curated samples from trending social media content and professional fact-checking repositories, covering domains such as public health, political discourse, and economic claims. It supports various forms of reasoning, including numerical computation, logical reasoning, and common sense verification. The rigorous multistage construction process ensures high data quality and provides significant challenges. Furthermore, we propose the ECS to complement existing evaluation metrics. To establish effective baselines for TrendFact, we propose FactISR, a dual-component method integrating evidence triangulation and iterative self-reflection mechanism. Experimental results demonstrate that current leading reasoning models (e.g., DeepSeek-R1, o1) have significant limitations on TrendFact, underscoring the real-world challenges it presents. FactISR significantly enhances reasoning model performance, offering new insights for explainable and complex fact-checking.
- Abstract(参考訳): 事実検証は依然として基本的だが、説明生成は、解釈可能な合理性を生成し、包括的な検証プロセスを促進することによって、信頼できる事実チェックシステムにとって重要な実現手段となる。
しかしながら、現在のベンチマークでは、(1)説明アノテーションの欠如、(2)英語中心の言語バイアス、(3)時間的関連性の欠如の3つの側面において重要な制限が示されている。
これらのギャップを埋めるために、構造化された自然言語の説明を取り入れた最初の中国のファクトチェックベンチマークであるTrendFactを紹介する。
TrendFactは、ソーシャルメディアのトレンドコンテンツやプロのファクトチェックレポジトリから、7,643件を慎重に収集し、公衆衛生、政治談話、経済的なクレームなどの分野をカバーしている。
数値計算、論理的推論、常識検証など、様々な推論形式をサポートしている。
厳密な多段階構築プロセスは、高いデータ品質を確保し、重大な課題を提供する。
さらに,既存の評価指標を補完するECSを提案する。
TrendFact の効果的なベースラインを確立するために,エビデンス三角法と反復自己回帰機構を組み合わせた二成分法 FactISR を提案する。
実験の結果、現在の主要な推論モデル(例:DeepSeek-R1, o1)がTrendFactに重大な制限を課していることが示され、それが提示する現実世界の課題を裏付けている。
FactISRは推論モデルのパフォーマンスを大幅に向上させ、説明可能な複雑な事実チェックのための新しい洞察を提供する。
関連論文リスト
- ZeFaV: Boosting Large Language Models for Zero-shot Fact Verification [2.6874004806796523]
ZeFaVはゼロショットベースのファクトチェック検証フレームワークで、大規模な言語モデルのファクト検証タスクのパフォーマンスを向上させる。
我々は,HoVerとFEVEROUSを含む2つのマルチホップファクトチェックデータセットに対するアプローチを実証実験により評価した。
論文 参考訳(メタデータ) (2024-11-18T02:35:15Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality Evaluation [4.773086022844023]
実世界のユーザインタラクションにおける言語モデルの事実性を評価するパイプラインであるVERIFYを提案する。
VERIFYは既存の手法よりも人的評価と相関性が高いことを示す。
我々は、FACTBENCH上でGPT、Gemini、Llamaファミリーから広く使われているLMをベンチマークした。
論文 参考訳(メタデータ) (2024-10-29T17:19:56Z) - Robust Claim Verification Through Fact Detection [17.29665711917281]
我々の新しいアプローチであるFactDetectは、大規模言語モデル(LLM)を利用して、証拠から簡潔な事実文を生成する。
生成された事実は、クレームとエビデンスと組み合わせられる。
提案手法は,F1スコアにおいて,教師付きクレーム検証モデルにおいて,15%の競合結果を示す。
論文 参考訳(メタデータ) (2024-07-25T20:03:43Z) - How to Train Your Fact Verifier: Knowledge Transfer with Multimodal Open Models [95.44559524735308]
大規模言語またはマルチモーダルモデルに基づく検証は、偽コンテンツや有害コンテンツの拡散を緩和するためのオンラインポリシングメカニズムをスケールアップするために提案されている。
我々は,知識伝達の初期研究を通じて,継続的な更新を行うことなく基礎モデルの性能向上の限界をテストする。
最近の2つのマルチモーダルなファクトチェックベンチマークであるMochegとFakedditの結果は、知識伝達戦略がファクドディットのパフォーマンスを最先端よりも1.7%向上し、Mochegのパフォーマンスを2.9%向上させることができることを示唆している。
論文 参考訳(メタデータ) (2024-06-29T08:39:07Z) - Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - RU22Fact: Optimizing Evidence for Multilingual Explainable Fact-Checking on Russia-Ukraine Conflict [34.2739191920746]
高品質な証拠は、ファクトチェックシステムを強化する上で重要な役割を担っている。
本稿では,Webから証拠を自動的に抽出・要約する大規模言語モデルを提案する。
RU22Factは、ロシアとウクライナの紛争に関する説明可能な事実チェックデータセットであり、16Kサンプルのうち2022年に構築された。
論文 参考訳(メタデータ) (2024-03-25T11:56:29Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - AFaCTA: Assisting the Annotation of Factual Claim Detection with Reliable LLM Annotators [38.523194864405326]
AFaCTAは、事実主張のアノテーションを支援する新しいフレームワークである。
AFaCTAは、3つの事前定義された推論経路に沿って、アノテーションの信頼度を一貫性で調整する。
PoliClaimは、さまざまな政治的トピックにまたがる包括的なクレーム検出データセットである。
論文 参考訳(メタデータ) (2024-02-16T20:59:57Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - How We Refute Claims: Automatic Fact-Checking through Flaw
Identification and Explanation [4.376598435975689]
本稿では、アスペクト生成や欠陥識別を含む、欠陥指向の事実チェックの新たな課題について検討する。
また、このタスク用に特別に設計された新しいフレームワークであるRefuteClaimを紹介します。
既存のデータセットが存在しないことから、専門家のレビューから洞察を抽出して変換して、関連する側面に変換し、欠陥を特定したデータセットであるFlawCheckを紹介します。
論文 参考訳(メタデータ) (2024-01-27T06:06:16Z) - Evidence-based Interpretable Open-domain Fact-checking with Large
Language Models [26.89527395822654]
実世界のシナリオにおけるクレームチェックのためのオープンドメイン説明可能なFact-checking(OE-Fact)システムについて紹介する。
OE-Factシステムは、大規模言語モデル(LLM)の強力な理解と推論能力を利用してクレームを検証できる。
OE-Fact システムは,クローズドドメインとオープンドメインの両方のシナリオにおいて,一般的なファクトチェックベースラインシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-12-10T09:27:50Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - EX-FEVER: A Dataset for Multi-hop Explainable Fact Verification [22.785622371421876]
マルチホップで説明可能な事実検証のための先駆的データセットを提案する。
2ホップと3ホップの推論を含む6万件以上の主張により、それぞれがハイパーリンクされたウィキペディア文書から情報を要約して修正することによって作成される。
提案するEX-FEVERデータセットをベースラインとして,文書検索,説明生成,クレーム検証を行う。
論文 参考訳(メタデータ) (2023-10-15T06:46:15Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z) - Enhancing Factual Consistency of Abstractive Summarization [57.67609672082137]
ファクトアウェアな要約モデル FASum を提案し,実情関係を抽出し,要約生成プロセスに統合する。
次に,既存のシステムから生成した要約から事実誤りを自動的に補正する事実補正モデルFCを設計する。
論文 参考訳(メタデータ) (2020-03-19T07:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。