Fugu-MT 論文翻訳(概要): Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging

論文の概要: Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging

arxiv url: http://arxiv.org/abs/2504.07336v1
Date: Wed, 09 Apr 2025 23:33:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 22:33:37.012566
Title: Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging
Title（参考訳）: Zeus: Multimodal Medical Imaging におけるUnion Segmentation のゼロショット LLM 指導
Authors: Siyuan Dai, Kai Ye, Guodong Liu, Haoteng Tang, Liang Zhan,
Abstract要約: マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
参考スコア（独自算出の注目度）: 4.341503087761129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical image segmentation has achieved remarkable success through the continuous advancement of UNet-based and Transformer-based foundation backbones. However, clinical diagnosis in the real world often requires integrating domain knowledge, especially textual information. Conducting multimodal learning involves visual and text modalities shown as a solution, but collecting paired vision-language datasets is expensive and time-consuming, posing significant challenges. Inspired by the superior ability in numerous cross-modal tasks for Large Language Models (LLMs), we proposed a novel Vision-LLM union framework to address the issues. Specifically, we introduce frozen LLMs for zero-shot instruction generation based on corresponding medical images, imitating the radiology scanning and report generation process. {To better approximate real-world diagnostic processes}, we generate more precise text instruction from multimodal radiology images (e.g., T1-w or T2-w MRI and CT). Based on the impressive ability of semantic understanding and rich knowledge of LLMs. This process emphasizes extracting special features from different modalities and reunion the information for the ultimate clinical diagnostic. With generated text instruction, our proposed union segmentation framework can handle multimodal segmentation without prior collected vision-language datasets. To evaluate our proposed method, we conduct comprehensive experiments with influential baselines, the statistical results and the visualized case study demonstrate the superiority of our novel method.}
Abstract（参考訳）: 医用画像のセグメンテーションは、UNetベースとTransformerベースのファンデーションバックボーンの継続的な進歩を通じて、目覚ましい成功を収めた。しかし、実世界の臨床診断はドメイン知識、特にテキスト情報の統合を必要とすることが多い。マルチモーダル学習の実行には、ソリューションとして示される視覚的およびテキスト的モダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要するため、重大な課題を生じさせる。大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。具体的には,放射線スキャンとレポート生成を模倣した,対応する医用画像に基づくゼロショットインストラクション生成のための凍結LDMを紹介する。実世界の診断プロセスを改善するために, マルチモーダル画像(例えば, T1-w, T2-w MRI, CT)から, より正確なテキスト・インストラクションを生成する。 LLMのセマンティック理解と豊富な知識の印象的な能力に基づく。このプロセスは、異なるモダリティから特別な特徴を抽出し、究極の臨床診断のための情報を再結合することを強調する。生成したテキスト命令により,事前収集した視覚言語データセットを使わずに,マルチモーダルセグメンテーションを処理できる。提案手法を評価するために, 提案手法の優位性を示すため, 影響力のあるベースラインを用いた包括的実験, 統計的結果, 可視化ケーススタディを行った。 ※

関連論文リスト

Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation [13.362188283113788]
医用画像分析の強力なパラダイムとして、視覚言語による事前訓練が登場している。マルチエージェントデータジェネレーション(MAGEN)システムとオントロジーに基づくマルチアスペクト知識強化(O-MAKE)プリトレーニングを統合する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T04:55:54Z)
Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。 MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文参考訳（メタデータ） (2025-08-07T03:41:41Z)
TextBraTS: Text-Guided Volumetric Brain Tumor Segmentation with Innovative Dataset Development and Fusion Module Exploration [17.408476262703086]
我々は、ペア化されたMRIボリュームとリッチなテキストアノテーションを含む、初めて公開されたボリュームレベルのマルチモーダルデータセットであるTextBraTSデータセットを紹介する。提案手法は,脳腫瘍のセグメンテーション精度を大幅に向上させ,効果的なマルチモーダル統合技術に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-06-20T06:57:56Z)
Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings [44.99833362998488]
本稿では,胸部X線解釈に強力なテキスト中心言語モデルを利用する新しいフレームワークであるCXR-TextInterを紹介する。我々は,このLCM中心のアプローチを統合医療知識モジュールで強化し,臨床推論を強化する。我々の研究は医療画像AIの代替パラダイムを検証し、高度なLLM機能を活用する可能性を示している。
論文参考訳（メタデータ） (2025-05-03T06:18:12Z)
UMIT: Unifying Medical Imaging Tasks via Vision-Language Models [17.65946656129399]
UMITは医療画像処理に特化したマルチモーダル・マルチタスクVLMである。視覚的質問応答、疾患検出、医療報告生成など、さまざまな課題を解決できる。英語と中国語の両方をサポートし、その適用範囲を全世界で拡大している。
論文参考訳（メタデータ） (2025-03-20T06:43:36Z)
A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。 MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文参考訳（メタデータ） (2025-02-09T15:02:57Z)
Brain-Adapter: Enhancing Neurological Disorder Analysis with Adapter-Tuning Multimodal Large Language Models [30.044545011553172]
本稿では、新たな知識を学習し、元の学習済み知識に組み込むために、余分なボトルネック層を組み込んだ新しいアプローチであるBrain-Adapterを提案する。実験では,高い計算コストを伴わずに診断精度を大幅に向上させるため,マルチモーダルデータの統合によるアプローチの有効性を実証した。
論文参考訳（メタデータ） (2025-01-27T18:20:49Z)
MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
MedTsLLM: Leveraging LLMs for Multimodal Medical Time Series Analysis [6.30440420617113]
MedTsLLMは、時系列データとリッチな文脈情報をテキスト形式で統合し、生理的信号を解析する汎用多モーダル大規模言語モデル(LLM)フレームワークである。本研究は,連続時間における意味的セグメンテーション,境界検出,異常検出という,臨床的関連性のある3つのタスクを実行する。我々のモデルは、深層学習モデル、他のLSM、および複数の医療領域における臨床方法など、最先端のベースラインよりも優れています。
論文参考訳（メタデータ） (2024-08-14T18:57:05Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
LLM-driven Multimodal Target Volume Contouring in Radiation Oncology [46.23891509553877]
大規模言語モデル(LLM)は、テキスト情報と画像の統合を容易にする。 LLM駆動型マルチモーダルAI,すなわちLLMSegを提案する。提案モデルでは,従来のユニモーダルAIモデルと比較して,性能が著しく向上していることが実証された。
論文参考訳（メタデータ） (2023-11-03T13:38:42Z)
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。 VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文参考訳（メタデータ） (2023-08-15T11:28:21Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。