論文の概要: MedXChat: Bridging CXR Modalities with a Unified Multimodal Large Model
- arxiv url: http://arxiv.org/abs/2312.02233v1
- Date: Mon, 4 Dec 2023 06:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:15:49.323195
- Title: MedXChat: Bridging CXR Modalities with a Unified Multimodal Large Model
- Title(参考訳): medxchat: 統一マルチモーダル大規模モデルによるcxrモダリティのブリッジ
- Authors: Ling Yang, Zhanyu Wang, Luping Zhou
- Abstract要約: MedXChatは医療アシスタントとユーザ間のシームレスなインタラクションを目的とした,統合型マルチモーダル大規模モデルである。
MedXChatには、CXR(Chest X-ray)-to-Report Generation、CXRベースのビジュアル質問応答(VQA)、Text-to-CXR合成という3つの重要な機能が含まれている。
- 参考スコア(独自算出の注目度): 31.47561815601663
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the success of Large Language Models (LLMs) in general image tasks, a
gap persists in the medical field for a multimodal large model adept at
handling the nuanced diversity of medical images. Addressing this, we propose
MedXChat, a unified multimodal large model designed for seamless interactions
between medical assistants and users. MedXChat encompasses three key
functionalities: CXR(Chest X-ray)-to-Report generation, CXR-based visual
question-answering (VQA), and Text-to-CXR synthesis. Our contributions are as
follows. Firstly, our model showcases exceptional cross-task adaptability,
displaying adeptness across all three defined tasks and outperforming the
benchmark models on the MIMIC dataset in medical multimodal applications.
Secondly, we introduce an innovative Text-to-CXR synthesis approach that
utilizes instruction-following capabilities within the Stable Diffusion (SD)
architecture. This technique integrates smoothly with the existing model
framework, requiring no extra parameters, thereby maintaining the SD's
generative strength while also bestowing upon it the capacity to render
fine-grained medical images with high fidelity. Comprehensive experiments
validate MedXChat's synergistic enhancement across all tasks. Our instruction
data and model will be open-sourced.
- Abstract(参考訳): 画像タスクにおけるLarge Language Models (LLMs) の成功にもかかわらず、医療領域におけるギャップは、医療画像の微妙な多様性に対処できるマルチモーダルな大モデルにおいて持続する。
そこで我々は,医療アシスタントとユーザ間のシームレスなインタラクションを目的としたマルチモーダル大モデルであるMedXChatを提案する。
MedXChatには、CXR(Chest X-ray)-to-Report Generation、CXRベースのビジュアル質問応答(VQA)、Text-to-CXR合成という3つの重要な機能が含まれている。
私たちの貢献は以下の通りです。
まず,我々は3つのタスクにまたがる適応性を示し,医療用マルチモーダルアプリケーションにおいて,模倣データセット上でのベンチマークモデルよりも優れた性能を示す。
次に,Stable Diffusion (SD) アーキテクチャ内の命令追従機能を利用する,革新的なテキストからCXR合成手法を提案する。
この技術は既存のモデルフレームワークとスムーズに統合され、余分なパラメータを必要とせず、SDの生成強度を維持しつつ、高い忠実度で微細な医用画像を描画する能力を与える。
総合的な実験は、すべてのタスクにおけるMedXChatの相乗的拡張を検証する。
我々の命令データとモデルはオープンソース化される。
関連論文リスト
- SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided
Diffusion with Visual Invariant [15.30998544228763]
MedM2Gは、テキスト・ツー・イメージ、画像・トゥ・テキスト、医用モダリティの統一的な生成タスクを統一する医療生成モデルである。
10のデータセットにまたがって5つの医療生成タスクを実行する。
論文 参考訳(メタデータ) (2024-03-07T07:39:00Z) - MAIRA-1: A specialised large multimodal model for radiology report generation [41.69727330319648]
胸部X線(CXR)から放射線学的レポートを生成するための放射線学固有のマルチモーダルモデルを提案する。
我々の研究は、学習済みの視覚エンコーダとアライメントすることで、大規模言語モデルにマルチモーダル機能を持たせることができるという考えに基づいている。
提案モデル(MAIRA-1)は,Vicuna-7Bに基づく微調整された大規模言語モデルと協調してCXR固有の画像エンコーダを利用して,最先端の品質のレポートを生成する。
論文 参考訳(メタデータ) (2023-11-22T19:45:40Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - EMIXER: End-to-end Multimodal X-ray Generation via Self-supervision [39.07263052525579]
我々は,X線画像と対応する自由テキストレポートを共同で合成する,エンド・ツー・エンドのMultimodal X線生成モデル(EMIXER)を提案する。
EMIXERは、1)ラベルに基づいて画像を生成すること、2)隠された埋め込みに画像をエンコードすること、3)画像埋め込みから階層的デコーダを介して対応するテキストを生成すること、、4)画像と対応するテキストの両方を評価する共同識別器により、条件付き生成対向モデルである。
EMIXER生成した合成データセットは、X線画像分類、レポート生成モデルを強化して5。
論文 参考訳(メタデータ) (2020-07-10T20:19:01Z) - Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。
当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。
マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文 参考訳(メタデータ) (2020-02-11T08:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。