論文の概要: MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided
Diffusion with Visual Invariant
- arxiv url: http://arxiv.org/abs/2403.04290v1
- Date: Thu, 7 Mar 2024 07:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:41:08.206599
- Title: MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided
Diffusion with Visual Invariant
- Title(参考訳): MedM2G:ビジュアル不変量を用いたクロスガイド拡散による医用マルチモーダル生成の統合
- Authors: Chenlu Zhan, Yu Lin, Gaoang Wang, Hongwei Wang, Jian Wu
- Abstract要約: MedM2Gは、テキスト・ツー・イメージ、画像・トゥ・テキスト、医用モダリティの統一的な生成タスクを統一する医療生成モデルである。
10のデータセットにまたがって5つの医療生成タスクを実行する。
- 参考スコア(独自算出の注目度): 15.30998544228763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical generative models, acknowledged for their high-quality sample
generation ability, have accelerated the fast growth of medical applications.
However, recent works concentrate on separate medical generation models for
distinct medical tasks and are restricted to inadequate medical multi-modal
knowledge, constraining medical comprehensive diagnosis. In this paper, we
propose MedM2G, a Medical Multi-Modal Generative framework, with the key
innovation to align, extract, and generate medical multi-modal within a unified
model. Extending beyond single or two medical modalities, we efficiently align
medical multi-modal through the central alignment approach in the unified
space. Significantly, our framework extracts valuable clinical knowledge by
preserving the medical visual invariant of each imaging modal, thereby
enhancing specific medical information for multi-modal generation. By
conditioning the adaptive cross-guided parameters into the multi-flow diffusion
framework, our model promotes flexible interactions among medical multi-modal
for generation. MedM2G is the first medical generative model that unifies
medical generation tasks of text-to-image, image-to-text, and unified
generation of medical modalities (CT, MRI, X-ray). It performs 5 medical
generation tasks across 10 datasets, consistently outperforming various
state-of-the-art works.
- Abstract(参考訳): 高品質なサンプル生成能力で認識された医療生成モデルは、医療応用の急速な成長を加速させた。
しかし、近年の研究は、個別の医療タスクのための個別の医療生成モデルに焦点を合わせており、医学的マルチモーダル知識に乏しく、包括的診断を制限している。
本稿では,医療用マルチモーダル生成フレームワークであるmedm2gを提案し,統一モデル内で医療用マルチモーダルの調整,抽出,生成を行うための重要なイノベーションについて述べる。
単一あるいは2つの医療モダリティを超えて、統一空間における中心的なアライメントアプローチを通じて、医療マルチモーダルを効率的に調整する。
本フレームワークは,各画像の医用画像の不変性を保ち,マルチモーダル生成のための特定の医療情報を強化することで,貴重な臨床知識を抽出する。
適応クロスガイドパラメータをマルチフロー拡散フレームワークに条件付けすることにより,医療用マルチモーダル間のフレキシブルなインタラクションを促進する。
MedM2Gは、テキスト・ツー・イメージ、画像・トゥ・テキスト、医用モダリティ(CT、MRI、X線)の医用生成タスクを統合する最初の医療生成モデルである。
10のデータセットにまたがって5つの医療生成タスクを実行する。
関連論文リスト
- HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic
Cross-modal Learnable Prompts [14.681493967465693]
動的クロスモーダル学習型プロンプトを用いた統一医療ビジョン言語モデルUniDCPを提案する。
UniDCPは、14のデータセットで8つの医学的ユニモーダルタスクとクロスモーダルタスクを実行することができる。
論文 参考訳(メタデータ) (2023-12-18T13:18:24Z) - MedXChat: Bridging CXR Modalities with a Unified Multimodal Large Model [31.47561815601663]
MedXChatは医療アシスタントとユーザ間のシームレスなインタラクションを目的とした,統合型マルチモーダル大規模モデルである。
MedXChatには、CXR(Chest X-ray)-to-Report Generation、CXRベースのビジュアル質問応答(VQA)、Text-to-CXR合成という3つの重要な機能が含まれている。
論文 参考訳(メタデータ) (2023-12-04T06:40:12Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。