Fugu-MT 論文翻訳(概要): MedXChat: Bridging CXR Modalities with a Unified Multimodal Large Model

論文の概要: MedXChat: Bridging CXR Modalities with a Unified Multimodal Large Model

arxiv url: http://arxiv.org/abs/2312.02233v1
Date: Mon, 4 Dec 2023 06:40:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 18:15:49.323195
Title: MedXChat: Bridging CXR Modalities with a Unified Multimodal Large Model
Title（参考訳）: medxchat: 統一マルチモーダル大規模モデルによるcxrモダリティのブリッジ
Authors: Ling Yang, Zhanyu Wang, Luping Zhou
Abstract要約: MedXChatは医療アシスタントとユーザ間のシームレスなインタラクションを目的とした,統合型マルチモーダル大規模モデルである。 MedXChatには、CXR(Chest X-ray)-to-Report Generation、CXRベースのビジュアル質問応答(VQA)、Text-to-CXR合成という3つの重要な機能が含まれている。
参考スコア（独自算出の注目度）: 31.47561815601663
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite the success of Large Language Models (LLMs) in general image tasks, a gap persists in the medical field for a multimodal large model adept at handling the nuanced diversity of medical images. Addressing this, we propose MedXChat, a unified multimodal large model designed for seamless interactions between medical assistants and users. MedXChat encompasses three key functionalities: CXR(Chest X-ray)-to-Report generation, CXR-based visual question-answering (VQA), and Text-to-CXR synthesis. Our contributions are as follows. Firstly, our model showcases exceptional cross-task adaptability, displaying adeptness across all three defined tasks and outperforming the benchmark models on the MIMIC dataset in medical multimodal applications. Secondly, we introduce an innovative Text-to-CXR synthesis approach that utilizes instruction-following capabilities within the Stable Diffusion (SD) architecture. This technique integrates smoothly with the existing model framework, requiring no extra parameters, thereby maintaining the SD's generative strength while also bestowing upon it the capacity to render fine-grained medical images with high fidelity. Comprehensive experiments validate MedXChat's synergistic enhancement across all tasks. Our instruction data and model will be open-sourced.
Abstract（参考訳）: 画像タスクにおけるLarge Language Models (LLMs) の成功にもかかわらず、医療領域におけるギャップは、医療画像の微妙な多様性に対処できるマルチモーダルな大モデルにおいて持続する。そこで我々は,医療アシスタントとユーザ間のシームレスなインタラクションを目的としたマルチモーダル大モデルであるMedXChatを提案する。 MedXChatには、CXR(Chest X-ray)-to-Report Generation、CXRベースのビジュアル質問応答(VQA)、Text-to-CXR合成という3つの重要な機能が含まれている。私たちの貢献は以下の通りです。まず,我々は3つのタスクにまたがる適応性を示し,医療用マルチモーダルアプリケーションにおいて,模倣データセット上でのベンチマークモデルよりも優れた性能を示す。次に,Stable Diffusion (SD) アーキテクチャ内の命令追従機能を利用する,革新的なテキストからCXR合成手法を提案する。この技術は既存のモデルフレームワークとスムーズに統合され、余分なパラメータを必要とせず、SDの生成強度を維持しつつ、高い忠実度で微細な医用画像を描画する能力を与える。総合的な実験は、すべてのタスクにおけるMedXChatの相乗的拡張を検証する。我々の命令データとモデルはオープンソース化される。

関連論文リスト

Multimodal Large Language Models for Medical Report Generation via Customized Prompt Tuning [20.195025131749944]
本稿では,冷凍LLMと学習可能なビジュアルエンコーダを組み合わせたMLLMであるMRG-LLMを提案する。提案手法は, 即時的, 即時的, 即時的なカスタマイズで, 正確な, 対象とするレポート生成を可能にする2つの実装を提案する。
論文参考訳（メタデータ） (2025-06-18T14:09:34Z)
Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文参考訳（メタデータ） (2025-04-09T23:33:35Z)
A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。 MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文参考訳（メタデータ） (2025-02-09T15:02:57Z)
Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine [9.881981672848598]
MedPLIBという名前のバイオメディカルドメインのための新しいエンド・ツー・エンド・マルチモーダル・大規模言語モデルを導入する。視覚的質問応答(VQA)、任意のピクセルレベルのプロンプト(ポイント、バウンディングボックス、自由形式の形状)、ピクセルレベルの接地をサポートする。その結果,MedPLIBは複数の医学的視覚言語タスクにおいて最先端の結果を得たことが示唆された。
論文参考訳（メタデータ） (2024-12-12T13:41:35Z)
M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretation [0.0]
M4CXRは胸部X線(CXR)の解釈を強化するために設計された多モード大言語モデル(LLM)である。このモデルは、医療報告生成(MRG)、視覚的接地、視覚的質問応答(VQA)などの複数のタスクをサポートする。 M4CXRは、チェーン・オブ・シークレット・プロンプト戦略を用いて、MRGの最先端の臨床精度を達成する。
論文参考訳（メタデータ） (2024-08-29T02:12:58Z)
Effectively Fine-tune to Improve Large Multimodal Models for Radiology Report Generation [8.788649244412591]
大規模言語モデル(LLM)は最近、印象的な機能を示しています。ソフトな視覚的プロンプトとしてLLMのテキスト埋め込み空間に視覚的特徴を合わせるための,シンプルで効果的な2段階微調整プロトコルを提案する。 OpenLLaMA-7Bのフレームワークは、ドメイン固有の事前トレーニングを使わずに最先端のパフォーマンスを実現した。
論文参考訳（メタデータ） (2023-12-03T20:42:38Z)
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文参考訳（メタデータ） (2023-11-13T18:59:47Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文参考訳（メタデータ） (2023-05-19T07:44:39Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。