論文の概要: GSCo: Towards Generalizable AI in Medicine via Generalist-Specialist Collaboration
- arxiv url: http://arxiv.org/abs/2404.15127v2
- Date: Mon, 04 Nov 2024 15:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:35.520728
- Title: GSCo: Towards Generalizable AI in Medicine via Generalist-Specialist Collaboration
- Title(参考訳): GSCo:ジェネラリストとスペシャリストのコラボレーションによる医学における汎用AIを目指して
- Authors: Sunan He, Yuxiang Nie, Hongmei Wang, Shu Yang, Yihui Wang, Zhiyuan Cai, Zhixuan Chen, Yingxue Xu, Luyang Luo, Huiling Xiang, Xi Lin, Mingxiang Wu, Yifan Peng, George Shih, Ziyang Xu, Xian Wu, Qiong Wang, Ronald Cheong Kin Chan, Varut Vardhanabhuti, Winnie Chiu Wing Chu, Yefeng Zheng, Pranav Rajpurkar, Kang Zhang, Hao Chen,
- Abstract要約: 汎用基礎モデル(GFM)は、様々なタスクやモダリティを効果的に一般化する際、その例外的な能力と柔軟性で有名である。
本研究では,GFMとスペシャリストモデルの相乗効果について検討し,より広い範囲で正確な医用画像解析を可能にする。
MedDr は医学用に調整された最大のオープンソース GFM であり、例外的な命令追従能力とコンテキスト内学習能力を示す。
- 参考スコア(独自算出の注目度): 45.4367423329456
- License:
- Abstract: Generalist foundation models (GFMs) are renowned for their exceptional capability and flexibility in effectively generalizing across diverse tasks and modalities. In the field of medicine, while GFMs exhibit superior generalizability based on their extensive intrinsic knowledge as well as proficiency in instruction following and in-context learning, specialist models excel in precision due to their domain knowledge. In this work, for the first time, we explore the synergy between the GFM and specialist models, to enable precise medical image analysis on a broader scope. Specifically, we propose a cooperative framework, Generalist-Specialist Collaboration (GSCo), which consists of two stages, namely the construction of GFM and specialists, and collaborative inference on downstream tasks. In the construction stage, we develop MedDr, the largest open-source GFM tailored for medicine, showcasing exceptional instruction-following and in-context learning capabilities. Meanwhile, a series of lightweight specialists are crafted for downstream tasks with low computational cost. In the collaborative inference stage, we introduce two cooperative mechanisms, Mixture-of-Expert Diagnosis and Retrieval-Augmented Diagnosis, to harvest the generalist's in-context learning abilities alongside the specialists' domain expertise. For a comprehensive evaluation, we curate a large-scale benchmark featuring 28 datasets and about 250,000 images. Extensive results demonstrate that MedDr consistently outperforms state-of-the-art GFMs on downstream datasets. Furthermore, GSCo exceeds both GFMs and specialists across all out-of-domain disease diagnosis datasets. These findings indicate a significant paradigm shift in the application of GFMs, transitioning from separate models for specific tasks to a collaborative approach between GFMs and specialists, thereby advancing the frontiers of generalizable AI in medicine.
- Abstract(参考訳): 汎用基礎モデル(GFM)は、様々なタスクやモダリティを効果的に一般化する際、その例外的な能力と柔軟性で有名である。
医学の分野では、GFMは、その広範な本質的な知識に基づく優れた一般化能力と、それに続く指導や文脈内学習の習熟度を示す一方で、専門モデルはそのドメイン知識により正確性に優れる。
本研究は, GFMとスペシャリストモデルの相乗効果を初めて探求し, より広い範囲で正確な医用画像解析を可能にする。
具体的には、GFMとスペシャリストの構築と下流タスクの協調推論という2つの段階からなる協調的なフレームワーク、ジェネリスト-スペシャリスト協調(GSCo)を提案する。
構築段階では,医療用に調整された最大のオープンソースGFMであるMedDrを開発した。
一方、一連の軽量なスペシャリストは、計算コストの低い下流タスクのために作られています。
協調的推論の段階では、専門家の専門知識と合わせて、ジェネラリストのコンテキスト内学習能力を抽出するために、Mixture-of-Expert 診断とRetrieval-Augmented 診断という2つの協調メカニズムを導入する。
総合的な評価のために、28のデータセットと約25万の画像を含む大規模なベンチマークをキュレートする。
大規模な結果は、MedDrがダウンストリームデータセットの最先端のGCMを一貫して上回っていることを示している。
さらにGSCoは、すべてのドメイン外の疾患診断データセットにわたって、GFMとスペシャリストを超越している。
これらの結果は, GFMの応用において重要なパラダイムシフトを示し, 特定のタスクの個別モデルから, GFMとスペシャリストの協調的アプローチへと移行し, 医学における汎用AIのフロンティアを前進させた。
関連論文リスト
- KA$^2$ER: Knowledge Adaptive Amalgamation of ExpeRts for Medical Images Segmentation [5.807887214293438]
本稿では,多元的基礎モデルを学習し,複数のエキスパートモデルの協調的な目標に対処することを目的としたアダプティブ・アマルガメーション・ナレッジ・フレームワークを提案する。
特に、まず、各タスクに対してnnUNetベースのエキスパートモデルをトレーニングし、トレーニング済みのSwinUNTERをターゲット基盤モデルとして再利用する。
隠蔽層内の階層的アテンション機構は、すべての専門家の隠蔽層の特徴知識にターゲットモデルの適応的なマージを実現するように設計されている。
論文 参考訳(メタデータ) (2024-10-28T14:49:17Z) - LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。
我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。
LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文 参考訳(メタデータ) (2024-09-29T03:56:21Z) - Do Vision Foundation Models Enhance Domain Generalization in Medical Image Segmentation? [10.20366295974822]
本稿では,2つの最先端デコーダヘッドであるHSAMとHQSAMの要素を統合し,セグメンテーション性能を向上させる新しいデコーダヘッドアーキテクチャであるHQHSAMを紹介する。
種々の解剖学やモダリティを含む複数のデータセットに対する実験により,FM,特にHQHSAMデコードヘッドを用いて,医用画像分割のための領域一般化が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-12T11:41:35Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert
knowledge in text supervision [17.583536041845402]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから37個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文 参考訳(メタデータ) (2023-08-15T17:39:52Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。