論文の概要: MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional
- arxiv url: http://arxiv.org/abs/2605.24699v1
- Date: Sat, 23 May 2026 18:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.335932
- Title: MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional
- Title(参考訳): MDIA:HealthBench Professional上のマルチエージェント診断インテリジェンスパイプライン
- Authors: Roberto Cruz, David Rey-Blanco,
- Abstract要約: 完全HealthBench Professionalベンチマークにおいて,7ノード専門の臨床推論グラフであるMDIAを提示する。
性能向上は,特殊ルーティング,マルチターンコンテキスト保存,薬物状態安全ゲーティング,サイトフィルタ検索,長さ認識合成,エンジンレベルの信頼性など,システムアーキテクチャに起因していることを示す。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most reported gains on agentic-LLM clinical benchmarks are often attributed to prompt engineering, yet our results suggest that larger improvements can come from architectural and engine-level design. We present MDIA, a Multi-agent Diagnostic Intelligence Agent implemented as a 7-node specialty-routed clinical reasoning graph, on the full HealthBench Professional benchmark (n = 525), on a non-fine-tuned LLM. MDIA achieves 0.6272 under OpenAI's GPT-5.4-2026-03-05, which is +3.72 pp above the performance of OpenAI's ChatGPT for Clinicians. The experimental work shows that performance lift is attributable to system architecture: specialty routing, multi-turn context preservation, drug-state safety gating, site-filtered search, length-aware synthesis, and engine-level reliability. These findings support the view that agentic clinical benchmark performance is shaped both by the underlying foundation model and the orchestration architecture. Nevertheless, we also noticed notable differences when using other models as a grader; in particular, when using Gemini 2.5 Pro, MDIA scored 0.6585, which suggests that the choice of grader is a source of variability. Robust evaluation of LLMs would therefore require assessment across several independent grader models.
- Abstract(参考訳): エージェント-LLM 臨床ベンチマークにおける多くの報告は、しばしば迅速なエンジニアリングによるものであるが、我々の結果は、より大きな改善は、アーキテクチャとエンジンレベルの設計による可能性があることを示唆している。
MDIAは7ノードの特殊な臨床推論グラフとして実装され,全HealthBench Professionalベンチマーク(n = 525)で非微調整LDM上に実装されている。
MDIA は OpenAI の GPT-5.4-2026-03-05 で 0.6272 を達成する。
実験の結果,性能向上は,特殊ルーティング,マルチターンコンテキスト保存,薬物状態安全ゲーティング,サイトフィルタ検索,長さ認識合成,エンジンレベルの信頼性など,システムアーキテクチャに起因していることがわかった。
これらの結果は,基礎となる基礎モデルとオーケストレーションアーキテクチャの両方によって,エージェント的臨床ベンチマークのパフォーマンスが形成されるという見解を支持している。
特にGemini 2.5 Proを用いた場合,MDIAは0.6585となり,グレーダの選択が変数の源であることが示唆された。
LLMのロバスト評価は、いくつかの独立したグレーダモデルで評価する必要がある。
関連論文リスト
- EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design [0.4499833362998488]
3つの評価次元を持つベンチマークスイートを導入する。
本稿では,LangGraph上に構築されたマルチエージェントシステム(MAS)の実装であるEngiAIを紹介する。
論文 参考訳(メタデータ) (2026-05-19T12:12:09Z) - PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents [53.369140518949656]
外部知識グラフ(KG)の統合により,大規模言語モデル(LLM)ベースのシステムを強化する新しいフレームワークであるPersonalAI 2.0(PAI-2)を紹介する。
提案手法は,動的でマルチステージなクエリ処理パイプラインを組み込むことにより,既存のGraphRAG(Retrieval-Augmented Generation)メソッドの重要な制限に対処する。
グラフアルゴリズム(例えば、BeamSearch、WaterCircles)は、平均6%の標準フラットテンレトリバーよりも優れた結果が得られる一方で、検索計画強化機構は、6つのデータセットにわたるLLM-as-a-Judgeによる障害アルゴリズムに比べて18%向上することを示す。
論文 参考訳(メタデータ) (2026-05-13T13:06:30Z) - MedMeta: A Benchmark for LLMs in Synthesizing Meta-Analysis Conclusion from Medical Studies [0.8322112116381115]
大規模言語モデル(LLM)は、実際のリコールをテストする飽和標準医療ベンチマークを持つ。
MedMetaはLLMが医療メタ分析から結論を出す能力を評価するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2026-05-10T17:20:39Z) - Medmarks: A Comprehensive Open-Source LLM Benchmark Suite for Medical Tasks [12.131182745922843]
Medmarksは、質問応答、情報抽出、医療計算、オープンな臨床推論にまたがる30のベンチマークを備えた、完全なオープンソース評価スイートである。
検証基準とLCM-as-a-Judgeを用いて,71構成の61モデルの体系的評価を行う。
論文 参考訳(メタデータ) (2026-05-02T12:29:03Z) - Systematic Capability Benchmarking of Frontier Large Language Models for Offensive Cyber Tasks [0.0]
我々は、NYU CTF Benchの200の課題すべてについて、7つのプロバイダから10のフロンティアモデルを評価する。
制御された因子分析により、Kali Linux環境はUbuntuよりも9.5パーセント向上していることがわかった。
モデルの中では、Claude 4.5 Opusが最も高い解決率(59%)を達成し、続いてGemini 3 Pro(52%)、そしてGemini 3 Flashは1ソルバあたり0.05ドルで最高のコスト効率を提供する。
論文 参考訳(メタデータ) (2026-04-18T22:13:23Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise [14.052630186550628]
プロセス教師付き報酬モデル(PRM)は、数学やコーディングといった分野において、大きな言語モデル(LLM)の出力に対してステップバイステップの検証を提供する。
LLM作成臨床ノートに段階的な報酬信号を提供するために,PRMを訓練するための新しい枠組みを導入する。
論文 参考訳(メタデータ) (2024-12-17T06:24:34Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。