論文の概要: Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation
- arxiv url: http://arxiv.org/abs/2409.16183v1
- Date: Tue, 24 Sep 2024 15:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:17:23.306381
- Title: Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation
- Title(参考訳): 実世界の放射線学と包括的評価のためのエキスパートレベルの視覚言語基礎モデル
- Authors: Xiaohong Liu, Guoxing Yang, Yulin Luo, Jiaji Mao, Xiang Zhang, Ming Gao, Shanghang Zhang, Jun Shen, Guangyu Wang,
- Abstract要約: 本稿では,放射線学に適した視覚言語基盤モデルRadFoundを紹介する。
8100万枚以上の画像と25万枚の画像テキストのペアからなる、最も広範なデータセットでトレーニングされている。
専門家レベルのマルチモーダル認識と生成能力を確立するために、RadFoundは拡張された視覚エンコーダを導入した。
- 参考スコア(独自算出の注目度): 27.05259342502574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiology is a vital and complex component of modern clinical workflow and covers many tasks. Recently, vision-language (VL) foundation models in medicine have shown potential in processing multimodal information, offering a unified solution for various radiology tasks. However, existing studies either pre-trained VL models on natural data or did not fully integrate vision-language architecture and pretraining, often neglecting the unique multimodal complexity in radiology images and their textual contexts. Additionally, their practical applicability in real-world scenarios remains underexplored. Here, we present RadFound, a large and open-source vision-language foundation model tailored for radiology, that is trained on the most extensive dataset of over 8.1 million images and 250,000 image-text pairs, covering 19 major organ systems and 10 imaging modalities. To establish expert-level multimodal perception and generation capabilities, RadFound introduces an enhanced vision encoder to capture intra-image local features and inter-image contextual information, and a unified cross-modal learning design tailored to radiology. To fully assess the models' capability, we construct a benchmark, RadVLBench, including radiology interpretation tasks like medical vision-language question-answering, as well as text generation tasks ranging from captioning to report generation. We also propose a human evaluation framework. When evaluated on the real-world benchmark involving three representative modalities, 2D images (chest X-rays), multi-view images (mammograms), and 3D images (thyroid CT scans), RadFound significantly outperforms other VL foundation models on both quantitative metrics and human evaluation. In summary, the development of RadFound represents an advancement in radiology generalists, demonstrating broad applicability potential for integration into clinical workflows.
- Abstract(参考訳): 放射線学は現代の臨床ワークフローにおいて不可欠で複雑な要素であり、多くのタスクをカバーしている。
近年、医療における視覚言語基盤モデル(VL)は、様々な放射線学タスクに統一されたソリューションを提供し、マルチモーダル情報を処理する可能性を示している。
しかしながら、既存の研究では、自然データ上のVLモデルを事前学習するか、あるいは視覚言語アーキテクチャと事前学習を完全に統合していないか、しばしば放射線画像とそのテキストコンテキストにおけるユニークなマルチモーダルの複雑さを無視している。
さらに、現実のシナリオにおける実践的な適用性については、未検討のままである。
次に、RadFoundを紹介します。RadFoundは、放射線学に適した大規模でオープンソースのビジョン言語基盤モデルで、8100万以上の画像と25万の画像テキストペアからなる最も広範なデータセットに基づいてトレーニングされ、19の臓器システムと10の画像モダリティをカバーしています。
専門家レベルのマルチモーダル認識と生成能力を確立するため、RadFoundでは、画像内のローカル特徴をキャプチャし、コンテキスト情報間をキャプチャするための拡張された視覚エンコーダを導入し、また、放射線学に合わせた統合されたクロスモーダル学習設計を導入した。
モデルの能力を十分に評価するために、RadVLBenchというベンチマークを構築し、医用視覚言語質問応答などの放射線学解釈タスクと、キャプションからレポート生成までのテキスト生成タスクを含む。
また,人間評価の枠組みも提案する。
2次元画像(ケストX線)、マルチビュー画像(マンモグラム)、および3次元画像(甲状腺CTスキャン)を含む実世界のベンチマークで評価すると、RadFoundは他のVL基盤モデルよりも有意に優れている。
まとめると、RadFoundの開発は、放射線学のジェネリストの進歩を表し、臨床ワークフローに統合するための幅広い応用可能性を示している。
関連論文リスト
- D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training [0.1398098625978622]
RadCLIP(Radlogic Contrastive Language- Image Pre-Training)は、Vision Language Pre-Trainingフレームワークを利用した視覚言語基礎モデルである。
RadCLIPは、放射線画像と対応するテキストアノテーションを合わせるために事前訓練され、放射線画像のための堅牢な視覚バックボーンを形成した。
主なコントリビューションは,多種多様なラジオロジックな2D/3D画像テキストペアを用いた大規模データセットのキュレーション,2D画像の統合のための注意機構を用いたスライスプールアダプタ,および様々なラジオロジック下流タスクにおけるRadCLIPの総合評価である。
論文 参考訳(メタデータ) (2024-03-15T01:18:08Z) - RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text
Supervision [44.00149519249467]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。