論文の概要: From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG
- arxiv url: http://arxiv.org/abs/2603.03292v1
- Date: Fri, 06 Feb 2026 08:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.115847
- Title: From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG
- Title(参考訳): 対立から合意へ:マルチルートエージェントRAGによる医療推論の促進
- Authors: Wenhao Wu, Zhentao Tang, Yafu Li, Shixiong Kai, Mingxuan Yuan, Zhenhong Sun, Chunlin Chen, Zhi Wang,
- Abstract要約: 大規模言語モデル(LLM)は、医学的質問応答において高い推論能力を示す。
幻覚や時代遅れの知識を生み出す傾向は、医療分野において重大なリスクをもたらす。
既存の手法はノイズの多いトークンレベルの信号に依存しており、複雑な推論に必要なマルチラウンドの改良は欠如している。
- 参考スコア(独自算出の注目度): 65.0203623486525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit high reasoning capacity in medical question-answering, but their tendency to produce hallucinations and outdated knowledge poses critical risks in healthcare fields. While Retrieval-Augmented Generation (RAG) mitigates these issues, existing methods rely on noisy token-level signals and lack the multi-round refinement required for complex reasoning. In the paper, we propose **MA-RAG** (**M**ulti-Round **A**gentic RAG), a framework that facilitates test-time scaling for complex medical reasoning by iteratively evolving both external evidence and internal reasoning history within an agentic refinement loop. At each round, the agent transforms semantic **conflict** among candidate responses into actionable queries to retrieve external evidence, while optimizing history reasoning traces to mitigate long-context degradation. MA-RAG extends the *self-consistency* principle by leveraging the lack of consistency as a proactive signal for multi-round agentic reasoning and retrieval, and mirrors a *boosting* mechanism that iteratively minimizes the residual error toward a stable, high-fidelity medical **consensus**. Extensive evaluations across 7 medical Q&A benchmarks show that MA-RAG consistently surpasses competitive inference-time scaling and RAG baselines, delivering **substantial +6.8 points** on average accuracy over the backbone model. Our code is available at [this url](https://github.com/NJU-RL/MA-RAG).
- Abstract(参考訳): 大規模言語モデル(LLM)は、医学的質問に対する回答において高い推論能力を示すが、幻覚や時代遅れの知識を生み出す傾向は、医療分野において重大なリスクをもたらす。
Retrieval-Augmented Generation (RAG) はこれらの問題を緩和するが、既存の手法はノイズの多いトークンレベルの信号に依存しており、複雑な推論に必要なマルチラウンドの改良は欠いている。
本稿では, エージェントリファインメントループ内の外部証拠と内部推論履歴を反復的に進化させることにより, 複雑な医学的推論のためのテストタイムスケーリングを容易にするフレームワークである**MA-RAG** (**M**ulti-Round **A**gentic RAGを提案する。
各ラウンドにおいて、エージェントは、セマンティック**conflict**を候補応答から実行可能なクエリに変換して、外部のエビデンスを取得する。
MA-RAGは、多ラウンドのエージェント推論と検索のためのプロアクティブ信号としての一貫性の欠如を活用して*自己整合性*の原理を拡張し、安定した高忠実な医療**合意**に対する残留誤差を反復的に最小化する*ボスティング*のメカニズムをミラーする。
7つの医学的Q&Aベンチマークの広範囲な評価は、MA-RAGが競争時間スケーリングとRAGベースラインを一貫して上回り、**実質+6.8ポイント*をバックボーンモデルの平均精度で提供していることを示している。
私たちのコードは[ this url](https://github.com/NJU-RL/MA-RAG)で利用可能です。
関連論文リスト
- MuISQA: Multi-Intent Retrieval-Augmented Generation for Scientific Question Answering [16.26521741515184]
Multi-Intent Scientific Question Answering (MuISQA) ベンチマークは、サブクエストにおける不均一なエビデンスカバレッジに基づくRAGシステムの評価を目的としている。
さらに,大規模言語モデル(LLM)を利用した意図認識検索フレームワークを提案する。
MuISQAベンチマークおよび他の一般RAGデータセットを用いた実験により,本手法は従来手法,特に検索精度および証拠カバレッジにおいて,常に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-20T12:03:36Z) - MIRAGE: Scaling Test-Time Inference with Parallel Graph-Retrieval-Augmented Reasoning Chains [19.018680886214035]
MIRAGE(Multi-chain Inference with Retrieval-Augmented Graph Exploration)は、テスト時のスケーラブルな推論フレームワークである。
構造化された医療知識グラフに対する動的マルチチェーン推論を実行する。
自動評価と人的評価の両方において、GPT-4o、Tree-of-Thought、その他の検索強化ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-25T17:53:22Z) - MedCoT-RAG: Causal Chain-of-Thought RAG for Medical Question Answering [4.285647375182588]
大規模言語モデル (LLM) は医学的な疑問に答える上で有望であるが、幻覚や浅い推論に苦しむことが多い。
Retrieval-augmented Generation (RAG)は、外部の医療知識でLSMを強化するための実用的でプライバシー保護の手段を提供する。
MedCoT-RAGは、因果認識ドキュメント検索と構造化チェーン・オブ・シークレット・プロンプトを組み合わせたドメイン固有フレームワークである。
論文 参考訳(メタデータ) (2025-08-20T05:43:26Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - Talk Before You Retrieve: Agent-Led Discussions for Better RAG in Medical QA [17.823588070044217]
本稿では,医療質問応答システムを強化するためのプラグアンドプレイモジュールであるDisdisuss-RAGを提案する。
本手法では,多ターンブレインストーミングをエミュレートする医療専門家のチームを編成し,検索内容の関連性を向上する要約エージェントを提案する。
4つのベンチマーク医学QAデータセットによる実験結果から、DEC-RAGはMedRAGより一貫して優れていた。
論文 参考訳(メタデータ) (2025-04-30T01:37:44Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation [3.8808821719659763]
適応検索拡張生成(CDF-RAG)のための因果動的フィードバックを導入する。
CDF-RAGは、クエリを反復的に洗練し、構造化因果グラフを検索し、相互接続された知識ソース間のマルチホップ因果推論を可能にする。
我々は,CDF-RAGを4つの多様なデータセット上で評価し,既存のRAG法よりも応答精度と因果正性を向上させる能力を示した。
論文 参考訳(メタデータ) (2025-04-17T01:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。