論文の概要: MedVersa: A Generalist Foundation Model for Medical Image Interpretation
- arxiv url: http://arxiv.org/abs/2405.07988v2
- Date: Tue, 10 Jun 2025 03:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:38.460128
- Title: MedVersa: A Generalist Foundation Model for Medical Image Interpretation
- Title(参考訳): MedVersa: 医用画像解釈のためのジェネリスト基礎モデル
- Authors: Hong-Yu Zhou, Julián Nicolás Acosta, Subathra Adithan, Suvrankar Datta, Eric J. Topol, Pranav Rajpurkar,
- Abstract要約: 私たちはMedVersaを紹介します。MedVersaは、数千万のコンパイルされた医療インスタンスに基づいてトレーニングされたジェネラリスト基盤モデルです。
MedVersaは9つのタスクで最先端のパフォーマンスを達成し、時には10%以上のパフォーマンスを達成している。
本研究は, 医用画像解釈の進歩と臨床専門知識のサポートにおいて, フレキシブルでマルチモーダルなAIシステムの価値を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 13.926591893854031
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current medical AI systems are often limited to narrow applications, hindering widespread adoption. We present MedVersa, a generalist foundation model trained on tens of millions of compiled medical instances. MedVersa unlocks generalist learning from multimodal inputs and outputs, representing the first example of a generalist model reaching competitive performance with leading specialized solutions across a variety of medical imaging scenarios. MedVersa achieves state-of-the-art performance in nine tasks, sometimes outperforming counterparts by over 10%. Radiologist evaluation shows MedVersa-generated reports get superior performance in 95% of normal studies, while matching or exceeding human reports in 71% of cases overall. User studies showed notable reductions in report writing time and discrepancies with the use of MedVersa. Our findings underscore the value of flexible, multimodal AI systems in advancing medical image interpretation and supporting clinical expertise.
- Abstract(参考訳): 現在の医療用AIシステムは狭い用途に限られており、広く採用されるのを妨げている。
私たちはMedVersaを紹介します。MedVersaは、数千万のコンパイルされた医療インスタンスに基づいてトレーニングされたジェネラリスト基盤モデルです。
MedVersaは、マルチモーダルなインプットとアウトプットから一般の学習をアンロックし、さまざまな医療画像シナリオにわたる主要な特殊なソリューションと競合するパフォーマンスに達するジェネラリストモデルの最初の例を示している。
MedVersaは9つのタスクで最先端のパフォーマンスを達成し、時には10%以上のパフォーマンスを達成している。
放射線医学的な評価では、MedVersaが生成した報告は通常の研究の95%で優れており、全体の71%でヒトの報告と一致または上回っている。
ユーザスタディでは,MedVersaの使用によりレポート作成時間と不一致が顕著に減少した。
本研究は, 医用画像解釈の進歩と臨床専門知識のサポートにおいて, フレキシブルでマルチモーダルなAIシステムの価値を浮き彫りにしている。
関連論文リスト
- SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging [1.220481237642298]
本稿では,マルチモーダル医療画像アシスタントSilVar-Medを紹介する。
提案する推論データセットを用いて,医学的異常予測の背景にある推論の解釈に焦点をあてる。
この研究は、より透明でインタラクティブで、臨床的に実行可能な診断支援システムを育むことで、医療AIの分野を前進させると信じています。
論文 参考訳(メタデータ) (2025-04-14T18:51:37Z) - UMIT: Unifying Medical Imaging Tasks via Vision-Language Models [17.65946656129399]
UMITは医療画像処理に特化したマルチモーダル・マルチタスクVLMである。
視覚的質問応答、疾患検出、医療報告生成など、さまざまな課題を解決できる。
英語と中国語の両方をサポートし、その適用範囲を全世界で拡大している。
論文 参考訳(メタデータ) (2025-03-20T06:43:36Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.016940516468674]
本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。
本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。
我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文 参考訳(メタデータ) (2024-10-24T02:55:41Z) - MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - A comprehensive and easy-to-use multi-domain multi-task medical imaging meta-dataset (MedIMeta) [1.3641191496021943]
本稿では,新しいマルチドメイン・マルチタスク・メタデータセットであるMedIMetaについて紹介する。
MedIMetaには、10の異なる領域にまたがる19の医療画像データセットがあり、54の異なる医療タスクを含んでいる。
我々はMedimetaの技術的検証を行い、完全に教師付きおよびクロスドメインの学習ベースラインを通じてその実用性を実証する。
論文 参考訳(メタデータ) (2024-04-24T17:27:57Z) - UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic
Cross-modal Learnable Prompts [14.681493967465693]
動的クロスモーダル学習型プロンプトを用いた統一医療ビジョン言語モデルUniDCPを提案する。
UniDCPは、14のデータセットで8つの医学的ユニモーダルタスクとクロスモーダルタスクを実行することができる。
論文 参考訳(メタデータ) (2023-12-18T13:18:24Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。