論文の概要: Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining
- arxiv url: http://arxiv.org/abs/2304.14204v1
- Date: Wed, 26 Apr 2023 01:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:08:17.608371
- Title: Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining
- Title(参考訳): 知識強化マルチモーダルプリトレーニングによる医学的人工知能を目指して
- Authors: Bingqian Lin, Zicong Chen, Mingjie Li, Haokun Lin, Hang Xu, Yi Zhu,
Jianzhuang Liu, Wenjia Cai, Lei Yang, Shen Zhao, Chenfei Wu, Ling Chen,
Xiaojun Chang, Yi Yang, Lei Xing, Xiaodan Liang
- Abstract要約: 医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 121.89793208683625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical artificial general intelligence (MAGI) enables one foundation model
to solve different medical tasks, which is very practical in the medical
domain. It can significantly reduce the requirement of large amounts of
task-specific data by sufficiently sharing medical knowledge among different
tasks. However, due to the challenges of designing strongly generalizable
models with limited and complex medical data, most existing approaches tend to
develop task-specific models. To take a step towards MAGI, we propose a new
paradigm called Medical-knOwledge-enhanced mulTimOdal pretRaining (MOTOR). In
MOTOR, we combine two kinds of basic medical knowledge, i.e., general and
specific knowledge, in a complementary manner to boost the general pretraining
process. As a result, the foundation model with comprehensive basic knowledge
can learn compact representations from pretraining radiographic data for better
cross-modal alignment. MOTOR unifies the understanding and generation, which
are two kinds of core intelligence of an AI system, into a single medical
foundation model, to flexibly handle more diverse medical tasks. To enable a
comprehensive evaluation and facilitate further research, we construct a
medical multimodal benchmark including a wide range of downstream tasks, such
as chest x-ray report generation and medical visual question answering.
Extensive experiments on our benchmark show that MOTOR obtains promising
results through simple task-oriented adaptation. The visualization shows that
the injected knowledge successfully highlights key information in the medical
data, demonstrating the excellent interpretability of MOTOR. Our MOTOR
successfully mimics the human practice of fulfilling a "medical student" to
accelerate the process of becoming a "specialist". We believe that our work
makes a significant stride in realizing MAGI.
- Abstract(参考訳): 医用汎用知能(MAGI)は、医療領域において非常に実用的な、異なる医療課題を解決するための基礎モデルである。
異なるタスク間で医療知識を十分に共有することで、大量のタスク固有データの要求を大幅に低減することができる。
しかしながら、限定的かつ複雑な医療データを持つ強一般化モデルを設計するという課題のため、既存のアプローチの多くはタスク固有のモデルを開発する傾向がある。
magiへの一歩を踏み出すため,我々は医療知識強化マルチモーダルプリトレーニング(motor)と呼ばれる新しいパラダイムを提案する。
本研究はMOTORにおいて,一般知識と特定知識の2つの基本的知識を相補的に組み合わせて,一般事前訓練の促進を図る。
その結果、総合的な基礎知識を持つ基礎モデルは、X線データの事前学習からコンパクトな表現を学習し、クロスモーダルアライメントを改善することができる。
motorは、aiシステムの2種類のコアインテリジェンスである理解と生成を単一の医療基盤モデルに統合し、より多様な医療タスクを柔軟に処理できるようにする。
総合的な評価とさらなる研究を容易にするために,胸部x線レポート生成や医用視覚質問応答など,幅広い下流課題を含む医用マルチモーダルベンチマークを構築した。
ベンチマーク実験の結果,MOTORは単純なタスク指向適応によって有望な結果が得られることがわかった。
ビジュアライゼーションは,MOTORの優れた解釈可能性を示すとともに,医療データの重要情報を効果的に強調することを示す。
当社のMOTORは,「専門医」になる過程を加速するために,「医学生」を履修する人間の実践を模倣することに成功した。
我々は、我々の研究がMAGIの実現に大きく貢献していると信じている。
関連論文リスト
- MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models [54.09244105445476]
本研究は,フェデレート・ラーニング・フレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを紹介する。
FedKIMは軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、この知識を集中基盤モデルに統合する。
7つのモードで12タスクを対象に実験を行い,FedKIMの有効性について検討した。
論文 参考訳(メタデータ) (2024-08-17T15:42:29Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - Stone Needle: A General Multimodal Large-scale Model Framework towards
Healthcare [1.7894377200944511]
Stone Needleは、医療アプリケーションに特化して設計された、一般的なマルチモーダルな大規模モデルフレームワークである。
アーキテクチャは複数ラウンドの対話でマルチモーダルインタラクションを行うことができる。
異なるモダリティの融合と複雑な医療情報をストーンニードルで処理する能力は、正確な診断、治療勧告、患者医療に有効である。
論文 参考訳(メタデータ) (2023-06-28T09:04:56Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。
M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。
専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。