論文の概要: Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2602.14160v1
- Date: Sun, 15 Feb 2026 14:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.676866
- Title: Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning
- Title(参考訳): 信頼性のある臨床推論のためのプロセススーパービジョン型マルチエージェント強化学習
- Authors: Chaeeun Lee, T. Michael Yates, Pasquale Minervini, T. Ian Simpson,
- Abstract要約: 本稿では,遺伝子導入の有効性評価のためのエージェント・アズ・ツール強化学習フレームワークを提案する。
1つの重要な現実世界のケースは、遺伝子消失の妥当性のキュレーションであり、専門家は、ある遺伝子が病気に因果的に関係しているかどうかを判断しなければならない。
以上の結果から,GRPOを訓練したスーパーバイザーエージェントを用いたMASでは,ベースモデルのスーパーバイザーを0.195から0.732に改善した。
プロセス+結果報酬により、GRPO訓練されたスーパーバイザー付きMASは、より高い結果精度(0.750)を達成し、プロセス忠実度を0.520 F1に改善する。
- 参考スコア(独自算出の注目度): 15.47321745394914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical decision-making requires nuanced reasoning over heterogeneous evidence and traceable justifications. While recent LLM multi-agent systems (MAS) show promise, they largely optimise for outcome accuracy while overlooking process-grounded reasoning aligned with clinical standards. One critical real-world case of this is gene-disease validity curation, where experts must determine whether a gene is causally implicated in a disease by synthesising diverse biomedical evidence. We introduce an agent-as-tool reinforcement learning framework for this task with two objectives: (i) process-level supervision to ensure reasoning follows valid clinical pathways, and (ii) efficient coordination via a hierarchical multi-agent system. Our evaluation on the ClinGen dataset shows that with outcome-only rewards, MAS with a GRPO-trained Qwen3-4B supervisor agent substantially improves final outcome accuracy from 0.195 with a base model supervisor to 0.732, but results in poor process alignment (0.392 F1). Conversely, with process + outcome rewards, MAS with GRPO-trained supervisor achieves higher outcome accuracy (0.750) while significantly improving process fidelity to 0.520 F1. Our code is available at https://github.com/chaeeunlee-io/GeneDiseaseCurationAgents.
- Abstract(参考訳): 臨床的意思決定には、異質な証拠と追跡可能な正当化に対するニュアンスな推論が必要である。
近年のLLMマルチエージェントシステム (MAS) は有望であるが, 臨床基準に適合したプロセスベース推論を克服しながら, 結果の精度をほぼ最適化している。
ある遺伝子が病気に因果的に関与しているかどうかを専門家が判断し、多様な生医学的証拠を合成しなければならない。
本稿では,2つの目的を持ったエージェント・アズ・ツール強化学習フレームワークを提案する。
一 推論が有効な臨床経路に従うことを保証するためのプロセスレベルの監督、及び
(II)階層型マルチエージェントシステムによる効率的なコーディネーション。
ClinGen データセットを用いた評価の結果,GRPO トレーニングした Qwen3-4B スーパーバイザエージェントを用いた MAS では,ベースモデルスーパーバイザによる 0.195 から 0.732 までの最終的な結果精度が大幅に向上するが,プロセスアライメントが低下する(0.392 F1)。
逆に、プロセス+結果報酬では、GRPO訓練されたスーパーバイザーによるMASは、より高い結果精度(0.750)を達成すると同時に、プロセス忠実度を0.520 F1に向上させる。
私たちのコードはhttps://github.com/chaeeunlee-io/GeneDiseaseCurationAgentsで利用可能です。
関連論文リスト
- A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Developing Fairness-Aware Task Decomposition to Improve Equity in Post-Spinal Fusion Complication Prediction [3.860970992977915]
術後合併症予測のための公平性を考慮したマルチタスク学習フレームワークを提案する。
FAIR-MTLはデータ駆動型サブグループ推論機構を採用している。
AUCは0.86であり、75%の精度でシングルタスクベースラインを上回り、バイアスを大幅に低減する。
論文 参考訳(メタデータ) (2025-11-29T19:06:07Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - A Fully Automatic Framework for Intracranial Pressure Grading: Integrating Keyframe Identification, ONSD Measurement and Clinical Data [3.6652537579778106]
頭蓋内圧(ICP)上昇は脳機能に深刻な脅威をもたらし、時間的介入の監視を必要とする。
OnSD測定と臨床データを統合したICPグレーティングのための完全自動2段階フレームワークを提案する。
評価精度は0.845 pm 0.071$, 独立試験精度0.786であり, 従来のしきい値法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-11T11:37:48Z) - Organ-Agents: Virtual Human Physiology Simulator via LLMs [66.40796430669158]
オルガン-エージェント(Organ-Agents)は、LDM駆動のエージェントを介して人間の生理学をシミュレートする多エージェントフレームワークである。
症例は7,134例,コントロール7,895例で,9系統および125変数にわたる高分解能トラジェクトリを作成した。
臓器抗原は4,509人の保留患者に対して高いシミュレーション精度を達成し, システムごとのMSE0.16とSOFA系重症度層間の堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-20T01:58:45Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。