論文の概要: MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination
- arxiv url: http://arxiv.org/abs/2603.24579v1
- Date: Wed, 25 Mar 2026 17:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.427059
- Title: MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination
- Title(参考訳): MARCH:LLM幻覚のためのマルチエージェント強化セルフチェック
- Authors: Zhuo Li, Yupeng Zhang, Pengyu Cheng, Jiajun Song, Mengyu Zhou, Hao Li, Shujie Hu, Yu Qin, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: 幻覚は、大きな言語モデル(LLM)にとって重要なボトルネックである。
MARCH(Multi-Agent Reinforced Self-Check for Hallucination)を紹介する。
MARCHは意図的な情報非対称性を活用することで厳密な事実整合を強制する。
- 参考スコア(独自算出の注目度): 25.50050557327127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination remains a critical bottleneck for large language models (LLMs), undermining their reliability in real-world applications, especially in Retrieval-Augmented Generation (RAG) systems. While existing hallucination detection methods employ LLM-as-a-judge to verify LLM outputs against retrieved evidence, they suffer from inherent confirmation bias, where the verifier inadvertently reproduces the errors of the original generation. To address this, we introduce Multi-Agent Reinforced Self-Check for Hallucination (MARCH), a framework that enforces rigorous factual alignment by leveraging deliberate information asymmetry. MARCH orchestrates a collaborative pipeline of three specialized agents: a Solver, a Proposer, and a Checker. The Solver generates an initial RAG response, which the Proposer decomposes into claim-level verifiable atomic propositions. Crucially, the Checker validates these propositions against retrieved evidence in isolation, deprived of the Solver's original output. This well-crafted information asymmetry scheme breaks the cycle of self-confirmation bias. By training this pipeline with multi-agent reinforcement learning (MARL), we enable the agents to co-evolve and optimize factual adherence. Extensive experiments across hallucination benchmarks demonstrate that MARCH substantially reduces hallucination rates. Notably, an 8B-parameter LLM equipped with MARCH achieves performance competitive with powerful closed-source models. MARCH paves a scalable path for factual self-improvement of LLMs through co-evolution. The code is at https://github.com/Qwen-Applications/MARCH.
- Abstract(参考訳): 幻覚は、大規模言語モデル(LLM)にとって重要なボトルネックであり、特にRetrieval-Augmented Generation (RAG)システムにおいて、現実のアプリケーションにおける信頼性を損なう。
既存の幻覚検出法では, LLM-as-a-judgeを用いて, 復元された証拠に対するLCM出力の検証を行っているが, 検証者が元の世代の誤りを不注意に再現する固有の確認バイアスに悩まされている。
そこで本稿では,意図的な情報非対称性を活用することで,厳密な事実整合性を実現するフレームワークであるMARCHを紹介する。
MARCHは、Solver、Proposer、Checkerという3つの専門エージェントからなるコラボレーティブパイプラインを編成する。
ソルバーは初期RAG応答を生成し、プロポーラはクレームレベルの検証可能な原子命題に分解する。
重要なことに、チェッカーは、ソルバーの元々の出力を剥奪した、回収された証拠に対してこれらの命題を検証している。
この巧妙な情報非対称性スキームは自己確認バイアスのサイクルを破る。
マルチエージェント強化学習(MARL)を用いてこのパイプラインを訓練することにより,エージェントの協調開発と現実の定着の最適化が可能となる。
幻覚ベンチマークによる大規模な実験により、MARCHは幻覚率を大幅に低下させることが示された。
特に、MARCHを搭載した8BパラメーターLLMは、強力なクローズドソースモデルと競合する性能を実現する。
MARCHは、共同進化を通じてLLMの事実上の自己改善のためのスケーラブルなパスを舗装する。
コードはhttps://github.com/Qwen-Applications/MARCHにある。
関連論文リスト
- Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation [86.37623966653688]
大規模視覚言語モデル(LVLM)はますます強まりつつあるが、マルチモーダルタスクにおいて幻覚を起こす傾向にある。
幻覚を避けるためにこれらのLVLMを訓練することは、より大きなモデルでは違法に高価になるため、トレーニングフリーな手法はこの問題に対して安価で柔軟な解決策を提供する。
我々は,視覚的視覚的接地剤とエビデンスを検証した自己修復機構を組み合わせた,LVLM幻覚軽減のためのトレーニングフリーフレームワークであるKestrelを提案する。
論文 参考訳(メタデータ) (2026-03-17T15:30:47Z) - Bounding Hallucinations: Information-Theoretic Guarantees for RAG Systems via Merlin-Arthur Protocols [40.19713302778418]
本稿では,RAGパイプライン全体をインタラクティブな証明システムとして扱うためのトレーニングフレームワークを提案する。
その結果,M/A訓練によるLLMは,基礎性,完全性,音性,拒否行動が改善された。
本研究は,自律型対話型防犯スタイルの監視が,信頼性の高いRAGシステムへの原則的かつ実践的な経路を提供することを示す。
論文 参考訳(メタデータ) (2025-12-12T14:50:38Z) - Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders [39.5490415037017]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の事実性を改善する。
既存のRAGの幻覚検出法は、しばしば大規模な検出器の訓練に頼っている。
RAGLensは、RAG出力を正確にフラグする軽量幻覚検出器である。
論文 参考訳(メタデータ) (2025-12-09T18:33:22Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Reasoning-CV: Fine-tuning Powerful Reasoning LLMs for Knowledge-Assisted Claim Verification [17.35114345065597]
CoT(Chain-of-Thought)-Verifyパラダイムは、サブステートへの分解を必要とせず、検証段階を分離することなく、元の複雑クレームに対するCoT検証パスを生成する。
Reasoning-CVは既存のDecompose-Then-Verify法よりも優れた知識支援クレーム検証性能を示す。
論文 参考訳(メタデータ) (2025-05-18T10:28:54Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large
Language Models in Knowledge Conflicts [21.34852490049787]
本稿では,大規模言語モデル(LLM)の知識衝突時の行動に関する包括的かつ制御された最初の調査について述べる。
LLMは, パラメトリックメモリと矛盾しても, 外部の証拠に対して高い受容性を有することが判明した。
一方、LCMは、外部証拠がパラメトリックメモリと整合した情報を含む場合、強い確証バイアスを示す。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。