論文の概要: Meissa: Multi-modal Medical Agentic Intelligence
- arxiv url: http://arxiv.org/abs/2603.09018v1
- Date: Mon, 09 Mar 2026 23:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.894239
- Title: Meissa: Multi-modal Medical Agentic Intelligence
- Title(参考訳): Meissa: マルチモーダル医療エージェントインテリジェンス
- Authors: Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille,
- Abstract要約: エージェント機能をオフラインで提供する軽量医療用MM-LLMであるMeissaを紹介する。
メサは外的相互作用(戦略選択)をいつ行うかと、フロンティアモデルから構造化軌跡を蒸留することによって多段階の相互作用(戦略実行)を実行する方法の両方を学ぶ。
Meissaは、APIベースのデプロイメントに比べて、エンドツーエンドのレイテンシが22倍低く、完全にオフラインで動作する。
- 参考スコア(独自算出の注目度): 24.222326685491648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal large language models (MM-LLMs) have shown strong performance in medical image understanding and clinical reasoning. Recent medical agent systems extend them with tool use and multi-agent collaboration, enabling complex decision-making. However, these systems rely almost entirely on frontier models (e.g., GPT), whose API-based deployment incurs high cost, high latency, and privacy risks that conflict with on-premise clinical requirements. We present Meissa, a lightweight 4B-parameter medical MM-LLM that brings agentic capability offline. Instead of imitating static answers, Meissa learns both when to engage external interaction (strategy selection) and how to execute multi-step interaction (strategy execution) by distilling structured trajectories from frontier models. Specifically, we propose: (1) Unified trajectory modeling: trajectories (reasoning and action traces) are represented within a single state-action-observation formalism, allowing one model to generalize across heterogeneous medical environments. (2) Three-tier stratified supervision: the model's own errors trigger progressive escalation from direct reasoning to tool-augmented and multi-agent interaction, explicitly learning difficulty-aware strategy selection. (3) Prospective-retrospective supervision: pairing exploratory forward traces with hindsight-rationalized execution traces enables stable learning of effective interaction policies. Trained on 40K curated trajectories, Meissa matches or exceeds proprietary frontier agents in 10 of 16 evaluation settings across 13 medical benchmarks spanning radiology, pathology, and clinical reasoning. Using over 25x fewer parameters than typical frontier models like Gemini-3, Meissa operates fully offline with 22x lower end-to-end latency compared to API-based deployment. Data, models, and environments are released at https://github.com/Schuture/Meissa.
- Abstract(参考訳): マルチモーダル大言語モデル (MM-LLM) は, 医用画像の理解と臨床推論において高い性能を示した。
最近の医療エージェントシステムは、ツールの使用とマルチエージェントのコラボレーションによってそれらを拡張し、複雑な意思決定を可能にしている。
しかし、これらのシステムは、ほとんど完全にフロンティアモデル(例えば、GPT)に依存しており、APIベースのデプロイメントは、オンプレミスの臨床要件と矛盾する高コスト、高レイテンシ、プライバシリスクを引き起こす。
エージェント機能をオフラインで提供する軽量な4Bパラメータ医療MM-LLMであるMeissaを紹介する。
静的な答えを模倣する代わりに、メサは外部の相互作用(戦略選択)と、フロンティアモデルから構造化軌跡を蒸留することで多段階の相互作用(戦略実行)を実行する方法の両方を学ぶ。
具体的には,(1)統一軌跡モデリング:1つの状態-動作-観測形式内に軌道(推論と行動トレース)を表現し,一モデルが異種医療環境全体にわたって一般化できるようにする。
2) モデル自体のエラーは, 直接推論からツール強化・マルチエージェントインタラクションへの段階的エスカレーションを引き起こし, 難解な戦略選択を明示的に学習する。
3) 先見的・振り返り的監督: 後見的合理的な実行トレースと探索的前方トレースのペア化により, 効果的なインタラクションポリシの安定した学習が可能となる。
40Kのコースで訓練されたMeissaは、放射線学、病理学、臨床理学を対象とする13の医療ベンチマークにおいて、16の評価設定のうち10のプロプライエタリなフロンティアエージェントに適合するか、あるいは超えている。
Gemini-3のような一般的なフロンティアモデルよりも25倍少ないパラメータを使用すれば、APIベースのデプロイメントに比べて22倍のレイテンシで完全にオフラインで動作する。
データ、モデル、環境はhttps://github.com/Schuture/Meissa.comで公開されている。
関連論文リスト
- MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue [18.814676128928234]
大規模言語モデル (LLMs) は, バイオメディカルな質問応答の分野で優れた能力を発揮してきたが, 実際の臨床研究への応用はいまだに課題に直面している。
我々は,医療相談を不確実性下での動的意思決定プロセスとしてモデル化する,強化学習(RL)に基づくマルチエージェント協調フレームワークであるOursを提案する。
本手法は,医療資源の配分を最適化し,労働力不足を緩和する戦略の草分けとして,時間的プレッシャーによる誤診リスクの低減,複雑な症例に対する臨床医の解放,医療資源配分の最適化,労働力不足の緩和など,極めて実践的な価値を示す。
論文 参考訳(メタデータ) (2025-05-26T07:48:14Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。