論文の概要: Exploring Health Misinformation Detection with Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2512.09935v1
- Date: Sat, 29 Nov 2025 12:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.582846
- Title: Exploring Health Misinformation Detection with Multi-Agent Debate
- Title(参考訳): マルチエージェント・ディベートを用いた健康情報誤報の探索
- Authors: Chih-Han Chen, Chen-Han Tsai, Yu-Shao Peng,
- Abstract要約: 健康情報検出のための2段階の枠組みを提案する。
第1段階では,検索した記事を独立に評価するために,大規模言語モデル (LLM) を用いる。
このスコアが、事前定義された閾値以下のコンセンサスフォールが不十分であることを示すと、システムは第2段階に進む。
複数のエージェントが構造化された議論を行い、矛盾する証拠を合成し、明確な正当性を持つ十分な評決を生成する。
- 参考スコア(独自算出の注目度): 0.11470070927586014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fact-checking health-related claims has become increasingly critical as misinformation proliferates online. Effective verification requires both the retrieval of high-quality evidence and rigorous reasoning processes. In this paper, we propose a two-stage framework for health misinformation detection: Agreement Score Prediction followed by Multi-Agent Debate. In the first stage, we employ large language models (LLMs) to independently evaluate retrieved articles and compute an aggregated agreement score that reflects the overall evidence stance. When this score indicates insufficient consensus-falling below a predefined threshold-the system proceeds to a second stage. Multiple agents engage in structured debate to synthesize conflicting evidence and generate well-reasoned verdicts with explicit justifications. Experimental results demonstrate that our two-stage approach achieves superior performance compared to baseline methods, highlighting the value of combining automated scoring with collaborative reasoning for complex verification tasks.
- Abstract(参考訳): 誤報がオンラインに広まるにつれ、健康関連の事実チェックがますます重要になっている。
有効な検証には、高品質な証拠の検索と厳密な推論プロセスの両方が必要である。
本稿では,健康情報検出のための2段階の枠組みを提案する。
第1段階では,大規模言語モデル(LLM)を用いて,検索した論文を独立に評価し,全体の証拠スタンスを反映した集合的合意スコアを算出する。
このスコアが、事前定義された閾値以下のコンセンサスフォールが不十分であることを示すと、システムは第2段階に進む。
複数のエージェントが構造化された議論を行い、矛盾する証拠を合成し、明確な正当性を持つ十分な評決を生成する。
実験の結果,2段階の手法はベースライン手法よりも優れた性能を示し,複雑な検証タスクに対する協調的推論と自動スコアリングの組み合わせの価値を強調した。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Strong Reasoning Isn't Enough: Evaluating Evidence Elicitation in Interactive Diagnosis [29.630872344186873]
インタラクティブな医療相談は、エージェントが不確実性の下で行方不明な臨床証拠を積極的に引き出す必要がある。
既存の評価の大部分は静的あるいは結果中心であり、エビデンス収集プロセスを無視している。
シミュレーションされた患者と、原子的証拠に基づく再現されたレポーターを用いて、コンサルテーションプロセスを明示的にモデル化するインタラクティブな評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:36:35Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Learning to Summarize by Learning to Quiz: Adversarial Agentic Collaboration for Long Document Summarization [86.98098988779809]
SummQは長期文書要約のための新しい逆多重エージェントフレームワークである。
提案手法では,包括的な要約を作成し,評価するために協調作業を行う要約ジェネレータとレビュアーを用いる。
広範に使用されている3つの文書要約ベンチマーク上でSummQを評価する。
論文 参考訳(メタデータ) (2025-09-25T08:36:19Z) - Multi-Agent Retrieval-Augmented Framework for Evidence-Based Counterspeech Against Health Misinformation [8.23209620713472]
健康情報に対する反響を生成するための多エージェント検索フレームワークを提案する。
提案手法は静的および動的エビデンスを統合し,生成した反音声が関連性,良好,最新であることを保証する。
論文 参考訳(メタデータ) (2025-07-09T22:10:06Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Towards Detecting LLMs Hallucination via Markov Chain-based Multi-agent Debate Framework [41.47029501736853]
本稿では,マルコフ連鎖に基づくマルチエージェント論争検証フレームワークを提案し,簡潔なクレームにおける幻覚検出精度を向上させる。
本手法は,クレーム検出,エビデンス検索,マルチエージェント検証を含むファクトチェック処理を統合する。
論文 参考訳(メタデータ) (2024-06-05T08:59:45Z) - DEE: Dual-stage Explainable Evaluation Method for Text Generation [21.37963672432829]
テキスト生成の品質を推定するための2段階説明可能な評価手法であるDEEを紹介する。
Llama 2 上に構築された DEE は、生成したテキスト中のエラーの効率的な識別を行うためのステージ固有の命令によって導かれる2段階の原理に従う。
このデータセットは、幻覚や毒性などの新たな問題に対処し、DEEの評価基準の範囲を広げる。
論文 参考訳(メタデータ) (2024-03-18T06:30:41Z) - Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。
様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。
本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文 参考訳(メタデータ) (2023-12-08T06:22:12Z) - Topic-Aware Evidence Reasoning and Stance-Aware Aggregation for Fact
Verification [19.130541561303293]
本稿では,事実検証のための新たな話題認識型証拠推論とスタンス認識型アグリゲーションモデルを提案する。
2つのベンチマークデータセットで実施されたテストは、事実検証のためのいくつかの最先端アプローチよりも提案モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-02T14:33:12Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。