論文の概要: Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining
- arxiv url: http://arxiv.org/abs/2304.14204v1
- Date: Wed, 26 Apr 2023 01:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:08:17.608371
- Title: Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining
- Title(参考訳): 知識強化マルチモーダルプリトレーニングによる医学的人工知能を目指して
- Authors: Bingqian Lin, Zicong Chen, Mingjie Li, Haokun Lin, Hang Xu, Yi Zhu,
Jianzhuang Liu, Wenjia Cai, Lei Yang, Shen Zhao, Chenfei Wu, Ling Chen,
Xiaojun Chang, Yi Yang, Lei Xing, Xiaodan Liang
- Abstract要約: 医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 121.89793208683625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical artificial general intelligence (MAGI) enables one foundation model
to solve different medical tasks, which is very practical in the medical
domain. It can significantly reduce the requirement of large amounts of
task-specific data by sufficiently sharing medical knowledge among different
tasks. However, due to the challenges of designing strongly generalizable
models with limited and complex medical data, most existing approaches tend to
develop task-specific models. To take a step towards MAGI, we propose a new
paradigm called Medical-knOwledge-enhanced mulTimOdal pretRaining (MOTOR). In
MOTOR, we combine two kinds of basic medical knowledge, i.e., general and
specific knowledge, in a complementary manner to boost the general pretraining
process. As a result, the foundation model with comprehensive basic knowledge
can learn compact representations from pretraining radiographic data for better
cross-modal alignment. MOTOR unifies the understanding and generation, which
are two kinds of core intelligence of an AI system, into a single medical
foundation model, to flexibly handle more diverse medical tasks. To enable a
comprehensive evaluation and facilitate further research, we construct a
medical multimodal benchmark including a wide range of downstream tasks, such
as chest x-ray report generation and medical visual question answering.
Extensive experiments on our benchmark show that MOTOR obtains promising
results through simple task-oriented adaptation. The visualization shows that
the injected knowledge successfully highlights key information in the medical
data, demonstrating the excellent interpretability of MOTOR. Our MOTOR
successfully mimics the human practice of fulfilling a "medical student" to
accelerate the process of becoming a "specialist". We believe that our work
makes a significant stride in realizing MAGI.
- Abstract(参考訳): 医用汎用知能(MAGI)は、医療領域において非常に実用的な、異なる医療課題を解決するための基礎モデルである。
異なるタスク間で医療知識を十分に共有することで、大量のタスク固有データの要求を大幅に低減することができる。
しかしながら、限定的かつ複雑な医療データを持つ強一般化モデルを設計するという課題のため、既存のアプローチの多くはタスク固有のモデルを開発する傾向がある。
magiへの一歩を踏み出すため,我々は医療知識強化マルチモーダルプリトレーニング(motor)と呼ばれる新しいパラダイムを提案する。
本研究はMOTORにおいて,一般知識と特定知識の2つの基本的知識を相補的に組み合わせて,一般事前訓練の促進を図る。
その結果、総合的な基礎知識を持つ基礎モデルは、X線データの事前学習からコンパクトな表現を学習し、クロスモーダルアライメントを改善することができる。
motorは、aiシステムの2種類のコアインテリジェンスである理解と生成を単一の医療基盤モデルに統合し、より多様な医療タスクを柔軟に処理できるようにする。
総合的な評価とさらなる研究を容易にするために,胸部x線レポート生成や医用視覚質問応答など,幅広い下流課題を含む医用マルチモーダルベンチマークを構築した。
ベンチマーク実験の結果,MOTORは単純なタスク指向適応によって有望な結果が得られることがわかった。
ビジュアライゼーションは,MOTORの優れた解釈可能性を示すとともに,医療データの重要情報を効果的に強調することを示す。
当社のMOTORは,「専門医」になる過程を加速するために,「医学生」を履修する人間の実践を模倣することに成功した。
我々は、我々の研究がMAGIの実現に大きく貢献していると信じている。
関連論文リスト
- Training Small Multimodal Models to Bridge Biomedical Competency Gap: A
Case Study in Radiology Imaging [114.43429928419755]
バイオメディカル・コンピテンシー・ギャップを橋渡しするオープンソース小型マルチモーダル・モデル(SMM)の訓練について検討する。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - From Beginner to Expert: Modeling Medical Knowledge into General LLMs [22.475129648458136]
大規模言語モデル(LLM)に基づく人工知能(AI)システムは、自然言語の理解と生成において顕著な能力を示した。
これらのモデルは、医学的な知識を推論したり、医師のような方法で医学的な疑問に答えたりするといった、繊細な応用に関して重要な課題に直面している。
本研究は、事前訓練された一般LLMモデル(AntGLM-10B)から始まり、医療初心者から医療専門家(AntGLM-Med-10B)に微調整する。
論文 参考訳(メタデータ) (2023-12-02T05:54:06Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - Stone Needle: A General Multimodal Large-scale Model Framework towards
Healthcare [1.7894377200944511]
Stone Needleは、医療アプリケーションに特化して設計された、一般的なマルチモーダルな大規模モデルフレームワークである。
アーキテクチャは複数ラウンドの対話でマルチモーダルインタラクションを行うことができる。
異なるモダリティの融合と複雑な医療情報をストーンニードルで処理する能力は、正確な診断、治療勧告、患者医療に有効である。
論文 参考訳(メタデータ) (2023-06-28T09:04:56Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。
アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文 参考訳(メタデータ) (2023-05-25T16:29:16Z) - Medical Multimodal-Multitask Foundation Model for Superior Chest CT
Performance [14.850088420906175]
患者管理にはマルチモーダルデータとのマルチタスクインタラクションが必要である。
第一種医療マルチモーダルマルチタスク基盤モデル(M3FM)を提案する。
M3FMは、肺がんスクリーニング、心臓疾患予測、その他のCT関連タスクに優れたボリュームCT画像撮影性能を実現している。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。