論文の概要: CT Multi-Task Learning with a Large Image-Text (LIT) Model
- arxiv url: http://arxiv.org/abs/2304.02649v1
- Date: Mon, 3 Apr 2023 20:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 16:40:16.455046
- Title: CT Multi-Task Learning with a Large Image-Text (LIT) Model
- Title(参考訳): 大規模画像テキスト(LIT)モデルを用いたCTマルチタスク学習
- Authors: Chuang Niu and Ge Wang
- Abstract要約: 大規模言語モデル(LLM)は複数の言語タスクに権限を与え、異なる空間にまたがる汎用インターフェースとして機能する。
肺がん診断のためのマルチタスクCT大画像テキスト(LIT)モデルの構築の可能性について検討した。
最初の結果から,肺分画,肺検診,肺がんの分類など,LITモデルが複数の医療業務をうまく遂行していることが示唆された。
- 参考スコア(独自算出の注目度): 6.693379403133435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLM) not only empower multiple language tasks but also
serve as a general interface across different spaces. Up to now, it has not
been demonstrated yet how to effectively translate the successes of LLMs in the
computer vision field to the medical imaging field which involves
high-dimensional and multi-modal medical images. In this paper, we report a
feasibility study of building a multi-task CT large image-text (LIT) model for
lung cancer diagnosis by combining an LLM and a large image model (LIM).
Specifically, the LLM and LIM are used as encoders to perceive multi-modal
information under task-specific text prompts, which synergizes multi-source
information and task-specific and patient-specific priors for optimized
diagnostic performance. The key components of our LIT model and associated
techniques are evaluated with an emphasis on 3D lung CT analysis. Our initial
results show that the LIT model performs multiple medical tasks well, including
lung segmentation, lung nodule detection, and lung cancer classification.
Active efforts are in progress to develop large image-language models for
superior medical imaging in diverse applications and optimal patient outcomes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の言語タスクをパワーアップするだけでなく、異なる空間にまたがる汎用インターフェースとしても機能する。
これまでのところ、コンピュータビジョン分野におけるllmの成功を、高次元およびマルチモーダルな医療画像を含む医療画像分野に効果的に翻訳する方法は、まだ実証されていない。
本稿では,LLMとLIMを併用した肺がん診断のためのマルチタスクCT大画像テキスト(LIT)モデルの構築の可能性について報告する。
具体的には、LLMとLIMをエンコーダとして、マルチソース情報とタスク固有の患者固有の先行情報を相乗化して、最適な診断性能を実現するタスク固有のテキストプロンプトに基づいてマルチモーダル情報を知覚する。
LITモデルとそれに関連する技術の重要な要素を3次元肺CT解析に重点を置いて評価した。
肺の分節, 肺結節の検出, 肺がんの分類など, LIT モデルが複数の医療業務をうまく遂行していることを示す。
多様な応用における優れた医用画像と最適な患者結果のための大規模画像言語モデルの開発が進行中である。
関連論文リスト
- M3H: Multimodal Multitask Machine Learning for Healthcare [7.4489490661717355]
M3Hは、医療フレームワークのためのマルチモーダルマルチタスク機械学習(Multimodal Multitask Machine Learning for Healthcare)である。
多様なマルチモーダル入力からの学習を、幅広い医療タスクカテゴリと機械学習問題クラスに集約する。
M3Hは、標準の単一タスクモデルよりも優れたマルチタスクモデルを一貫して生成することを示す。
論文 参考訳(メタデータ) (2024-04-29T14:39:15Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [59.37561810438641]
本研究では,放射線画像における大規模大語彙疾患分類の問題点について検討する。
i)データセット構築では、39,026ケース(192,675スキャン)を含む930のユニークなICD-10-CMコードとリンクした5568の障害を含む、学術的にアクセス可能な大規模診断データセットを構築します。
さらに,本研究の最終モデルは事前学習モデルとして機能し,様々な外部データセットの診断に役立てることができる。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - INSPECT: A Multimodal Dataset for Pulmonary Embolism Diagnosis and
Prognosis [19.32686665459374]
肺塞栓症(PE)リスクの高い大コホートからの非同定型経時的記録を含むINSPECTについて紹介する。
INSPECTには、CT画像、放射線医学報告印象セクション、構造化電子健康記録(EHR)データ(人口統計、診断、手順、バイタル、医薬品など)を含む19,402人のデータが含まれている。
論文 参考訳(メタデータ) (2023-11-17T07:28:16Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - Stone Needle: A General Multimodal Large-scale Model Framework towards
Healthcare [1.7894377200944511]
Stone Needleは、医療アプリケーションに特化して設計された、一般的なマルチモーダルな大規模モデルフレームワークである。
アーキテクチャは複数ラウンドの対話でマルチモーダルインタラクションを行うことができる。
異なるモダリティの融合と複雑な医療情報をストーンニードルで処理する能力は、正確な診断、治療勧告、患者医療に有効である。
論文 参考訳(メタデータ) (2023-06-28T09:04:56Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Two heads are better than one: Enhancing medical representations by
pre-training over structured and unstructured electronic health records [23.379185792773875]
マルチモーダル EHR から代表的特徴を自動学習するために,UMM-PLM という,深層学習に基づく医用事前訓練言語モデルを提案する。
まず,各データソースから一助表現を別々に学習する一助情報表現モジュールを開発した。
異なるモジュラリティ間の相互作用をモデル化するために、クロスモーダルモジュールが導入された。
論文 参考訳(メタデータ) (2022-01-25T06:14:49Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。