論文の概要: MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided
Diffusion with Visual Invariant
- arxiv url: http://arxiv.org/abs/2403.04290v1
- Date: Thu, 7 Mar 2024 07:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:41:08.206599
- Title: MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided
Diffusion with Visual Invariant
- Title(参考訳): MedM2G:ビジュアル不変量を用いたクロスガイド拡散による医用マルチモーダル生成の統合
- Authors: Chenlu Zhan, Yu Lin, Gaoang Wang, Hongwei Wang, Jian Wu
- Abstract要約: MedM2Gは、テキスト・ツー・イメージ、画像・トゥ・テキスト、医用モダリティの統一的な生成タスクを統一する医療生成モデルである。
10のデータセットにまたがって5つの医療生成タスクを実行する。
- 参考スコア(独自算出の注目度): 15.30998544228763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical generative models, acknowledged for their high-quality sample
generation ability, have accelerated the fast growth of medical applications.
However, recent works concentrate on separate medical generation models for
distinct medical tasks and are restricted to inadequate medical multi-modal
knowledge, constraining medical comprehensive diagnosis. In this paper, we
propose MedM2G, a Medical Multi-Modal Generative framework, with the key
innovation to align, extract, and generate medical multi-modal within a unified
model. Extending beyond single or two medical modalities, we efficiently align
medical multi-modal through the central alignment approach in the unified
space. Significantly, our framework extracts valuable clinical knowledge by
preserving the medical visual invariant of each imaging modal, thereby
enhancing specific medical information for multi-modal generation. By
conditioning the adaptive cross-guided parameters into the multi-flow diffusion
framework, our model promotes flexible interactions among medical multi-modal
for generation. MedM2G is the first medical generative model that unifies
medical generation tasks of text-to-image, image-to-text, and unified
generation of medical modalities (CT, MRI, X-ray). It performs 5 medical
generation tasks across 10 datasets, consistently outperforming various
state-of-the-art works.
- Abstract(参考訳): 高品質なサンプル生成能力で認識された医療生成モデルは、医療応用の急速な成長を加速させた。
しかし、近年の研究は、個別の医療タスクのための個別の医療生成モデルに焦点を合わせており、医学的マルチモーダル知識に乏しく、包括的診断を制限している。
本稿では,医療用マルチモーダル生成フレームワークであるmedm2gを提案し,統一モデル内で医療用マルチモーダルの調整,抽出,生成を行うための重要なイノベーションについて述べる。
単一あるいは2つの医療モダリティを超えて、統一空間における中心的なアライメントアプローチを通じて、医療マルチモーダルを効率的に調整する。
本フレームワークは,各画像の医用画像の不変性を保ち,マルチモーダル生成のための特定の医療情報を強化することで,貴重な臨床知識を抽出する。
適応クロスガイドパラメータをマルチフロー拡散フレームワークに条件付けすることにより,医療用マルチモーダル間のフレキシブルなインタラクションを促進する。
MedM2Gは、テキスト・ツー・イメージ、画像・トゥ・テキスト、医用モダリティ(CT、MRI、X線)の医用生成タスクを統合する最初の医療生成モデルである。
10のデータセットにまたがって5つの医療生成タスクを実行する。
関連論文リスト
- MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - MultiMed: Massively Multimodal and Multitask Medical Understanding [41.160488390597905]
MultiMedは、幅広い医学的モダリティとタスクにわたる大規模学習の評価と有効化を目的として設計されたベンチマークである。
医療報告、病理学、ゲノム学、タンパク質データなど10の医療モダリティにまたがる256万のサンプルで構成されている。
我々はMultiMedを用いて、最先端のユニモーダル、マルチモーダル、マルチタスクモデルのベンチマークを行う。
論文 参考訳(メタデータ) (2024-08-22T18:41:36Z) - Automated Ensemble Multimodal Machine Learning for Healthcare [52.500923923797835]
本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを紹介する。
AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。
論文 参考訳(メタデータ) (2024-07-25T17:46:38Z) - Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images [1.4680035572775536]
ヴィジュアル言語モデルは、医療領域におけるマルチモーダル分類問題に挑戦するための強力なツールとして登場した。
既存の研究は、特定のモダリティや身体領域の臨床的記述に焦点を当てており、全身のマルチモーダル記述を提供するモデルにギャップを残している。
本稿では,マルチモーダルMRIおよびCT画像において,全身の標準化された体局と臓器のリストの自動生成により,このギャップに対処する。
論文 参考訳(メタデータ) (2024-05-31T09:59:11Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。