論文の概要: Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study
- arxiv url: http://arxiv.org/abs/2602.22959v1
- Date: Thu, 26 Feb 2026 12:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.690302
- Title: Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study
- Title(参考訳): エージェントはゼロショット設定で視覚障害と分離疾患を区別できるか? : 実験的検討
- Authors: Zihao Zhao, Frederik Hauke, Juliana De Castilhos, Sven Nebelung, Daniel Truhn,
- Abstract要約: ゼロショット設定で視覚的に分離し難い疾患を区別し,臨床的に重要な設定について検討した。
我々は,(1)黒色腫と非定型ネバス,(2)肺浮腫と肺炎の2つの画像専用プロキシ診断タスクについて,代表薬をベンチマークした。
実験結果より, 診断成績は改善し(皮膚内視鏡検査データでは11ポイントの精度向上) , 定性的検体では支持率の低下が認められたが, 総合的な検査成績は, 臨床展開には不十分であった。
- 参考スコア(独自算出の注目度): 2.0401008936258527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of multimodal large language models (MLLMs) has led to increasing interest in agent-based systems. While most prior work in medical imaging concentrates on automating routine clinical workflows, we study an underexplored yet clinically significant setting: distinguishing visually hard-to-separate diseases in a zero-shot setting. We benchmark representative agents on two imaging-only proxy diagnostic tasks, (1) melanoma vs. atypical nevus and (2) pulmonary edema vs. pneumonia, where visual features are highly confounded despite substantial differences in clinical management. We introduce a multi-agent framework based on contrastive adjudication. Experimental results show improved diagnostic performance (an 11-percentage-point gain in accuracy on dermoscopy data) and reduced unsupported claims on qualitative samples, although overall performance remains insufficient for clinical deployment. We acknowledge the inherent uncertainty in human annotations and the absence of clinical context, which further limit the translation to real-world settings. Within this controlled setting, this pilot study provides preliminary insights into zero-shot agent performance in visually confounded scenarios.
- Abstract(参考訳): MLLM(Multimodal large language model)の急速な進歩により,エージェントベースシステムへの関心が高まっている。
医用画像におけるこれまでの研究は、日常的な臨床ワークフローの自動化に重点を置いているが、ゼロショット環境では、視覚的に切り離すのが難しい病気を区別する、未発見かつ臨床的に重要な設定について研究している。
本研究は,(1)黒色腫と非定型ネバス,(2)肺浮腫と肺炎の2つの画像のみに代表される診断課題についてベンチマークを行った。
コントラスト適応に基づくマルチエージェントフレームワークを提案する。
実験結果より, 診断成績は改善し(皮膚内視鏡検査データでは11ポイントの精度向上) , 定性的検体では支持率の低下が認められたが, 総合的な評価は臨床展開には不十分であった。
我々は、人間のアノテーションに固有の不確実性を認め、臨床コンテキストが欠如していることを認識し、実際の設定への翻訳をさらに制限する。
この制御された設定の中で、このパイロットスタディは、視覚的に構築されたシナリオにおけるゼロショットエージェントのパフォーマンスに関する予備的な洞察を提供する。
関連論文リスト
- A Vision-Language Foundation Model for Zero-shot Clinical Collaboration and Automated Concept Discovery in Dermatology [31.639593207459058]
本稿では,マスク付き潜在モデルとコントラスト学習を用いて学習した皮膚科視覚言語基礎モデルであるDermFM-Zeroを紹介する。
我々は、ゼロショット診断とマルチモーダル検索にまたがる20のベンチマークで評価を行い、タスク固有の適応を伴わずに最先端のパフォーマンスを実現した。
以上より, 基礎モデルにより, 効果的, 安全, 透明なゼロショット臨床診断支援が可能であることが示唆された。
論文 参考訳(メタデータ) (2026-02-11T08:14:20Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - An Explainable Hybrid AI Framework for Enhanced Tuberculosis and Symptom Detection [55.35661671061754]
結核は、特に資源に制限された遠隔地において、重要な世界的な健康問題である。
本稿では, 胸部X線による疾患および症状の検出を, 2つの頭部と自己監督頭部を統合することで促進する枠組みを提案する。
本モデルでは, 新型コロナウイルス, 結核, 正常症例の鑑別で98.85%の精度が得られ, マルチラベル症状検出では90.09%のマクロF1スコアが得られた。
論文 参考訳(メタデータ) (2025-10-21T17:18:55Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。
テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。
様々な医用画像モダリティにまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-11T22:23:38Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - Superhuman performance of a large language model on the reasoning tasks of a physician [9.16343214099031]
数百人の医師のベースラインに対する難治性臨床症例に対する大規模言語モデル(LLM)の医師評価の結果を報告する。
本研究は, 鑑別診断生成, 診断推論の表示, トリアージ差分診断, 確率的推論, 管理推論の5つの実験を行った。
次に, ボストンにある第3次学術医療センターの救急室で無作為に選択された患者を対象に, 人間の専門家とAIの第2の意見を比較検討した。
論文 参考訳(メタデータ) (2024-12-14T14:46:18Z) - MAGDA: Multi-agent guideline-driven diagnostic assistance [43.15066219293877]
救急部門、地方病院、または未開発地域の診療所では、臨床医は訓練された放射線技師による高速な画像分析を欠いていることが多い。
本研究では,ゼロショットガイドライン駆動意思決定支援のための新しいアプローチを提案する。
我々は、患者診断に到達するために協調する、対照的な視覚言語モデルで強化された複数のLLMエージェントのシステムをモデル化する。
論文 参考訳(メタデータ) (2024-09-10T09:10:30Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Contrastive learning for unsupervised medical image clustering and
reconstruction [0.23624125155742057]
本稿では,非教師なしのオートエンコーダフレームワークを提案する。
提案手法は教師付きアーキテクチャと同じような性能を達成し,潜伏空間における分離が専門家の医療観察者指定ラベルを再現することを示す。
論文 参考訳(メタデータ) (2022-09-24T13:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。