論文の概要: MAD-Fact: A Multi-Agent Debate Framework for Long-Form Factuality Evaluation in LLMs
- arxiv url: http://arxiv.org/abs/2510.22967v1
- Date: Mon, 27 Oct 2025 03:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.436622
- Title: MAD-Fact: A Multi-Agent Debate Framework for Long-Form Factuality Evaluation in LLMs
- Title(参考訳): MAD-Fact:LLMの長期特性評価のためのマルチエージェント議論フレームワーク
- Authors: Yucheng Ning, Xixun Lin, Fang Fang, Yanan Cao,
- Abstract要約: LLM(Large Language Models)の普及により、アウトプットの実際の正確性に関する重要な懸念が持ち上がる。
既存の短いテキストの評価手法は、複雑な推論連鎖、絡み合った視点、累積的な情報によって、長文コンテンツでは失敗することが多い。
本稿では,大規模長文データセット,マルチエージェント検証機構,重み付け評価指標を組み合わせた体系的アプローチを提案する。
- 参考スコア(独自算出の注目度): 13.409667737439905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of Large Language Models (LLMs) raises critical concerns about the factual accuracy of their outputs, especially in high-risk domains such as biomedicine, law, and education. Existing evaluation methods for short texts often fail on long-form content due to complex reasoning chains, intertwined perspectives, and cumulative information. To address this, we propose a systematic approach integrating large-scale long-form datasets, multi-agent verification mechanisms, and weighted evaluation metrics. We construct LongHalluQA, a Chinese long-form factuality dataset; and develop MAD-Fact, a debate-based multi-agent verification system. We introduce a fact importance hierarchy to capture the varying significance of claims in long-form texts. Experiments on two benchmarks show that larger LLMs generally maintain higher factual consistency, while domestic models excel on Chinese content. Our work provides a structured framework for evaluating and enhancing factual reliability in long-form LLM outputs, guiding their safe deployment in sensitive domains.
- Abstract(参考訳): LLM(Large Language Models)の普及は、特にバイオメディシン、法律、教育といったリスクの高い領域において、アウトプットの事実的正確性に関する重要な懸念を提起する。
既存の短いテキストの評価手法は、複雑な推論連鎖、絡み合った視点、累積的な情報によって、長文コンテンツでは失敗することが多い。
そこで本研究では,大規模長文データセット,マルチエージェント検証機構,重み付け評価指標を組み合わせた体系的アプローチを提案する。
我々は,中国の長文事実性データセットであるLongHalluQAを構築し,議論に基づくマルチエージェント検証システムであるMAD-Factを開発した。
長文におけるクレームの様々な重要性を捉えるために,事実重要階層を導入する。
2つのベンチマークの実験では、より大きなLLMは一般的に、中国のコンテンツに優れた国内モデルに対して、より高い事実整合性を維持することが示されている。
我々の研究は、長期LLM出力の事実信頼性を評価し、向上するための構造化されたフレームワークを提供し、センシティブなドメインへの安全な配置を導く。
関連論文リスト
- Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [2.0861090421004937]
大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。
本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文 参考訳(メタデータ) (2025-08-05T19:20:05Z) - Extract, Match, and Score: An Evaluation Paradigm for Long Question-context-answer Triplets in Financial Analysis [13.92563557858618]
大規模言語モデル(LLM)は多様なアプリケーションで広く採用されている。
従来の評価基準は、長文回答の品質を評価する際に低下する。
これは特に、拡張された質問、広範囲なコンテキスト、ロングフォームな回答を含む現実世界のシナリオにおいて重要である。
本稿では,LLMの出力の複雑さに合わせて,効率的な抽出,マッチング,スコア(EMS)評価手法を提案する。
論文 参考訳(メタデータ) (2025-03-20T09:38:44Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。