論文の概要: Verification with Transparency: The TrendFact Benchmark for Auditable Fact-Checking via Natural Language Explanation
- arxiv url: http://arxiv.org/abs/2410.15135v2
- Date: Sun, 06 Apr 2025 15:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:06:28.430116
- Title: Verification with Transparency: The TrendFact Benchmark for Auditable Fact-Checking via Natural Language Explanation
- Title(参考訳): 透明度による検証:自然言語説明による聴取可能なFact-CheckingのためのTrendFactベンチマーク
- Authors: Xiaocheng Zhang, Xi Wang, Yifei Lu, Zhuangzhuang Ye, Jianing Wang, Mengjiao Bao, Peng Yan, Xiaohong Su,
- Abstract要約: 我々は、構造化された自然言語の説明を取り入れた最初の中国のファクトチェックベンチマークであるTrendFactを紹介する。
TrendFactは、トレンドのソーシャルメディアコンテンツとプロのファクトチェックレポジトリから、7,643の慎重にキュレートされたサンプルで構成されている。
数値的推論、論理的推論、常識的検証など、様々な推論形式をサポートしている。
- 参考スコア(独自算出の注目度): 10.449165630417522
- License:
- Abstract: While fact verification remains fundamental, explanation generation serves as a critical enabler for trustworthy fact-checking systems by producing interpretable rationales and facilitating comprehensive verification processes. However, current benchmarks exhibit critical limitations in three dimensions: (1) absence of explanatory annotations, (2) English-centric language bias, and (3) inadequate temporal relevance. To bridge these gaps, we present TrendFact, the first Chinese fact-checking benchmark incorporating structured natural language explanations. TrendFact comprises 7,643 carefully curated samples from trending social media content and professional fact-checking repositories, covering domains such as public health, political discourse, and economic claims. It supports various forms of reasoning, including numerical computation, logical reasoning, and common sense verification. The rigorous multistage construction process ensures high data quality and provides significant challenges. Furthermore, we propose the ECS to complement existing evaluation metrics. To establish effective baselines for TrendFact, we propose FactISR, a dual-component method integrating evidence triangulation and iterative self-reflection mechanism. Experimental results demonstrate that current leading reasoning models (e.g., DeepSeek-R1, o1) have significant limitations on TrendFact, underscoring the real-world challenges it presents. FactISR significantly enhances reasoning model performance, offering new insights for explainable and complex fact-checking.
- Abstract(参考訳): 事実検証は依然として基本的だが、説明生成は、解釈可能な合理性を生成し、包括的な検証プロセスを促進することによって、信頼できる事実チェックシステムにとって重要な実現手段となる。
しかしながら、現在のベンチマークでは、(1)説明アノテーションの欠如、(2)英語中心の言語バイアス、(3)時間的関連性の欠如の3つの側面において重要な制限が示されている。
これらのギャップを埋めるために、構造化された自然言語の説明を取り入れた最初の中国のファクトチェックベンチマークであるTrendFactを紹介する。
TrendFactは、ソーシャルメディアのトレンドコンテンツやプロのファクトチェックレポジトリから、7,643件を慎重に収集し、公衆衛生、政治談話、経済的なクレームなどの分野をカバーしている。
数値計算、論理的推論、常識検証など、様々な推論形式をサポートしている。
厳密な多段階構築プロセスは、高いデータ品質を確保し、重大な課題を提供する。
さらに,既存の評価指標を補完するECSを提案する。
TrendFact の効果的なベースラインを確立するために,エビデンス三角法と反復自己回帰機構を組み合わせた二成分法 FactISR を提案する。
実験の結果、現在の主要な推論モデル(例:DeepSeek-R1, o1)がTrendFactに重大な制限を課していることが示され、それが提示する現実世界の課題を裏付けている。
FactISRは推論モデルのパフォーマンスを大幅に向上させ、説明可能な複雑な事実チェックのための新しい洞察を提供する。
関連論文リスト
- Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - ZeFaV: Boosting Large Language Models for Zero-shot Fact Verification [2.6874004806796523]
ZeFaVはゼロショットベースのファクトチェック検証フレームワークで、大規模な言語モデルのファクト検証タスクのパフォーマンスを向上させる。
我々は,HoVerとFEVEROUSを含む2つのマルチホップファクトチェックデータセットに対するアプローチを実証実験により評価した。
論文 参考訳(メタデータ) (2024-11-18T02:35:15Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - RU22Fact: Optimizing Evidence for Multilingual Explainable Fact-Checking on Russia-Ukraine Conflict [34.2739191920746]
高品質な証拠は、ファクトチェックシステムを強化する上で重要な役割を担っている。
本稿では,Webから証拠を自動的に抽出・要約する大規模言語モデルを提案する。
RU22Factは、ロシアとウクライナの紛争に関する説明可能な事実チェックデータセットであり、16Kサンプルのうち2022年に構築された。
論文 参考訳(メタデータ) (2024-03-25T11:56:29Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - How We Refute Claims: Automatic Fact-Checking through Flaw
Identification and Explanation [4.376598435975689]
本稿では、アスペクト生成や欠陥識別を含む、欠陥指向の事実チェックの新たな課題について検討する。
また、このタスク用に特別に設計された新しいフレームワークであるRefuteClaimを紹介します。
既存のデータセットが存在しないことから、専門家のレビューから洞察を抽出して変換して、関連する側面に変換し、欠陥を特定したデータセットであるFlawCheckを紹介します。
論文 参考訳(メタデータ) (2024-01-27T06:06:16Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - EX-FEVER: A Dataset for Multi-hop Explainable Fact Verification [22.785622371421876]
マルチホップで説明可能な事実検証のための先駆的データセットを提案する。
2ホップと3ホップの推論を含む6万件以上の主張により、それぞれがハイパーリンクされたウィキペディア文書から情報を要約して修正することによって作成される。
提案するEX-FEVERデータセットをベースラインとして,文書検索,説明生成,クレーム検証を行う。
論文 参考訳(メタデータ) (2023-10-15T06:46:15Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z) - Enhancing Factual Consistency of Abstractive Summarization [57.67609672082137]
ファクトアウェアな要約モデル FASum を提案し,実情関係を抽出し,要約生成プロセスに統合する。
次に,既存のシステムから生成した要約から事実誤りを自動的に補正する事実補正モデルFCを設計する。
論文 参考訳(メタデータ) (2020-03-19T07:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。