Fugu-MT 論文翻訳(概要): Towards Generalist Foundation Model for Radiology

論文の概要: Towards Generalist Foundation Model for Radiology

arxiv url: http://arxiv.org/abs/2308.02463v2
Date: Fri, 11 Aug 2023 02:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 16:12:37.793103
Title: Towards Generalist Foundation Model for Radiology
Title（参考訳）: 放射線学の一般モデルに向けて
Authors: Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang and Weidi Xie
Abstract要約: 我々は16M2Dと3Dの医用スキャンからなる大規模医療マルチモーダルデータセットMedMDを構築した。本稿では,2次元あるいは3次元の医用スキャンを組み込んだテキスト入力の統合を可能にする,視覚条件付き生成事前学習を実現するアーキテクチャを提案する。実験の結果、RadFMは既存のマルチモーダル基礎モデルよりも大幅に優れていたことが確認された。
参考スコア（独自算出の注目度）: 40.52487429030841
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM.We consider the construction of foundational models from the perspectives of data, model design, and evaluation thoroughly. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, consisting of 16M 2D and 3D medical scans. To the best of our knowledge, this is the first multi-modal dataset containing 3D medical scans. (ii), We propose an architecture that enables visually conditioned generative pre-training, allowing for the integration of text input interleaved with 2D or 3D medical scans to generate response for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently domain-specific fine-tuned on RadMD, a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs. (iii), we propose a new evaluation benchmark that comprises five tasks, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. Our experimental results confirm that RadFM significantly outperforms existing multi-modal foundation models. The codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.
Abstract（参考訳）: 本研究では,RadFMと呼ばれるRadlogy Foundation Modelの開発を目標とし,データ,モデル設計,評価の観点から基礎モデルの構築を徹底的に検討する。私たちの貢献は次のように結論づけられる。 i)16M2Dと3Dの医用スキャンからなる大規模医療用マルチモーダルデータセットMedMDを構築した。私たちの知る限りでは、これが3D医療スキャンを含む最初のマルチモーダルデータセットである。 (II)2次元または3次元の医用スキャンとインターリーブされたテキスト入力の統合により,多様な放射線学的タスクに対する応答を生成できるアーキテクチャを提案する。モデルは当初、MedMDで事前訓練され、その後、RadMDでドメイン固有の微調整が行われた。 (iii) 実践的臨床課題に対する基礎モデルの能力の包括的評価を目的とした, 5つのタスクからなる新しい評価ベンチマークを提案する。実験の結果,RadFMは既存のマルチモーダル基礎モデルよりも大幅に優れていた。コード、データ、モデルチェックポイントはすべて、この分野におけるさらなる研究と開発を促進するために公開されます。

関連論文リスト

3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks [14.366478737339909]
医用視覚質問応答 (Med-VQA) は, 臨床診断支援に有意な可能性を秘めている。本稿では,ラジオグラフィCTスキャンを用いた3次元メドVQAの高速化を目的とした大規模データセットである3D-RADを提案する。
論文参考訳（メタデータ） (2025-06-11T09:55:42Z)
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-09-28T12:31:07Z)
Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation [27.05259342502574]
本稿では,放射線学に適した視覚言語基盤モデルRadFoundを紹介する。 8100万枚以上の画像と25万枚の画像テキストのペアからなる、最も広範なデータセットでトレーニングされている。専門家レベルのマルチモーダル認識と生成能力を確立するために、RadFoundは拡張された視覚エンコーダを導入した。
論文参考訳（メタデータ） (2024-09-24T15:31:49Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
Advancing Multimodal Medical Capabilities of Gemini [32.28727204275662]
我々は、ジェミニのコア能力を継承する新しいメドジェニーニ族の中で、いくつかのモデルを開発する。 Med-Gemini-2Dは、専門家の評価に基づいて、AIベースの胸部X線(CXR)レポート生成の新しい標準を設定する。 Med-Gemini-3D は3次元CT(Computerd tomography)ボリュームのための最初の大規模マルチモーダル・モデルに基づくレポート生成である。
論文参考訳（メタデータ） (2024-05-06T04:44:22Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文参考訳（メタデータ） (2024-04-25T17:11:37Z)
M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。 120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文参考訳（メタデータ） (2024-03-31T06:55:12Z)
HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文参考訳（メタデータ） (2024-03-20T05:50:04Z)
ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。 ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文参考訳（メタデータ） (2023-10-08T17:23:17Z)
Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。 M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文参考訳（メタデータ） (2023-04-03T20:19:56Z)
medigan: A Python Library of Pretrained Generative Models for Enriched Data Access in Medical Imaging [3.8568465270960264]
mediganは、オープンソースのフレームワークに依存しないPythonライブラリとして実装された、事前訓練された生成モデルのワンストップショップである。研究者や開発者は、ほんの数行のコードでトレーニングデータを作成し、拡大し、ドメインに適応することができる。ライブラリのスケーラビリティと設計は、統合され、容易に利用できる事前訓練された生成モデルの増加によって実証される。
論文参考訳（メタデータ） (2022-09-28T23:45:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。