論文の概要: A Generalist Learner for Multifaceted Medical Image Interpretation
- arxiv url: http://arxiv.org/abs/2405.07988v1
- Date: Mon, 13 May 2024 17:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 12:36:51.906273
- Title: A Generalist Learner for Multifaceted Medical Image Interpretation
- Title(参考訳): 多面的医用画像解釈のための一般学習者
- Authors: Hong-Yu Zhou, Subathra Adithan, Julián Nicolás Acosta, Eric J. Topol, Pranav Rajpurkar,
- Abstract要約: 医用画像解釈のためのフレキシブルな学習とタスク作成を可能にする一般学習者であるMedVersaを提案する。
学習可能なオーケストレータとして大きな言語モデルを活用することで、MedVersaは視覚と言語の両方から学び、マルチモーダル入力をサポートし、リアルタイムタスク仕様を実行することができる。
我々の実験は、MedVersaが9つのタスクで最先端のパフォーマンスを達成し、時にはスペシャリストを10%以上上回っていることを示した。
- 参考スコア(独自算出の注目度): 14.75683710779724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current medical artificial intelligence systems are often limited to narrow applications, hindering their widespread adoption in clinical practice. To address this limitation, we propose MedVersa, a generalist learner that enables flexible learning and tasking for medical image interpretation. By leveraging a large language model as a learnable orchestrator, MedVersa can learn from both visual and linguistic supervision, support multimodal inputs, and perform real-time task specification. This versatility allows MedVersa to adapt to various clinical scenarios and perform multifaceted medical image analysis. We introduce MedInterp, the largest multimodal dataset to date for medical image interpretation, consisting of over 13 million annotated instances spanning 11 tasks across 3 modalities, to support the development of MedVersa. Our experiments demonstrate that MedVersa achieves state-of-the-art performance in 9 tasks, sometimes outperforming specialist counterparts by over 10%. MedVersa is the first to showcase the viability of multimodal generative medical AI in implementing multimodal outputs, inputs, and dynamic task specification, highlighting its potential as a multifunctional system for comprehensive medical image analysis. This generalist approach to medical image interpretation paves the way for more adaptable and efficient AI-assisted clinical decision-making.
- Abstract(参考訳): 現在の医療人工知能システムは、しばしば狭義の応用に限られており、臨床で広く採用されるのを妨げている。
この制限に対処するために、医用画像解釈のためのフレキシブルな学習とタスクを可能にする一般学習者であるMedVersaを提案する。
学習可能なオーケストレータとして大きな言語モデルを活用することで、MedVersaは視覚と言語の両方から学び、マルチモーダル入力をサポートし、リアルタイムタスク仕様を実行することができる。
この汎用性により、MedVersaは様々な臨床シナリオに適応し、多面的な医療画像解析を行うことができる。
我々は,MedVersaの開発を支援するために,これまでで最大規模のマルチモーダルデータセットであるMedInterpを紹介した。
我々の実験は、MedVersaが9つのタスクで最先端のパフォーマンスを達成し、時にはスペシャリストを10%以上上回っていることを示した。
MedVersaは、マルチモーダル出力、インプット、動的タスク仕様の実装において、マルチモーダル生成医療AIの生存可能性を示す最初のものであり、総合的な医用画像解析のためのマルチファンクショナルシステムとしての可能性を強調している。
この医用画像解釈に対する一般論的なアプローチは、より適応的で効率的なAI支援臨床意思決定の道を開く。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.016940516468674]
本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。
本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。
我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文 参考訳(メタデータ) (2024-10-24T02:55:41Z) - MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - A comprehensive and easy-to-use multi-domain multi-task medical imaging meta-dataset (MedIMeta) [1.3641191496021943]
本稿では,新しいマルチドメイン・マルチタスク・メタデータセットであるMedIMetaについて紹介する。
MedIMetaには、10の異なる領域にまたがる19の医療画像データセットがあり、54の異なる医療タスクを含んでいる。
我々はMedimetaの技術的検証を行い、完全に教師付きおよびクロスドメインの学習ベースラインを通じてその実用性を実証する。
論文 参考訳(メタデータ) (2024-04-24T17:27:57Z) - UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic
Cross-modal Learnable Prompts [14.681493967465693]
動的クロスモーダル学習型プロンプトを用いた統一医療ビジョン言語モデルUniDCPを提案する。
UniDCPは、14のデータセットで8つの医学的ユニモーダルタスクとクロスモーダルタスクを実行することができる。
論文 参考訳(メタデータ) (2023-12-18T13:18:24Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。