論文の概要: MedPrompt: Cross-Modal Prompting for Multi-Task Medical Image
Translation
- arxiv url: http://arxiv.org/abs/2310.02663v1
- Date: Wed, 4 Oct 2023 08:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:02:16.228020
- Title: MedPrompt: Cross-Modal Prompting for Multi-Task Medical Image
Translation
- Title(参考訳): MedPrompt: マルチタスク医療画像翻訳のためのクロスモーダルプロンプト
- Authors: Xuhang Chen, Chi-Man Pun and Shuqiang Wang
- Abstract要約: 臨床診断において欠落したモダリティデータを合成するためには,クロスモーダルな医用画像翻訳が不可欠である。
現在の学習ベースのテクニックは、クロスモーダルやグローバルな特徴のキャプチャに制限がある。
異なるモダリティを効率的に翻訳するマルチタスクフレームワークであるMedPromptを提案する。
- 参考スコア(独自算出の注目度): 46.09663994553627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal medical image translation is an essential task for synthesizing
missing modality data for clinical diagnosis. However, current learning-based
techniques have limitations in capturing cross-modal and global features,
restricting their suitability to specific pairs of modalities. This lack of
versatility undermines their practical usefulness, particularly considering
that the missing modality may vary for different cases. In this study, we
present MedPrompt, a multi-task framework that efficiently translates different
modalities. Specifically, we propose the Self-adaptive Prompt Block, which
dynamically guides the translation network towards distinct modalities. Within
this framework, we introduce the Prompt Extraction Block and the Prompt Fusion
Block to efficiently encode the cross-modal prompt. To enhance the extraction
of global features across diverse modalities, we incorporate the Transformer
model. Extensive experimental results involving five datasets and four pairs of
modalities demonstrate that our proposed model achieves state-of-the-art visual
quality and exhibits excellent generalization capability.
- Abstract(参考訳): 臨床診断において欠落したモダリティデータを合成するためには,クロスモーダルな医用画像翻訳が不可欠である。
しかし、現在の学習ベースの技術は、モダリティとグローバルな特徴を捉えるのに制限があり、特定のモダリティのペアに対する適合性を制限している。
この汎用性の欠如は、特に欠落したモダリティが異なるケースで異なることを考えると、その実用性を損なう。
本研究では,異なるモダリティを効率的に翻訳するマルチタスクフレームワークであるmedpromptを提案する。
具体的には,翻訳ネットワークを動的に異なるモダリティへと導く自己適応型プロンプトブロックを提案する。
本フレームワークでは,クロスモーダルプロンプトを効率的にエンコードするために,プロンプト抽出ブロックとプロンプト融合ブロックを導入する。
多様なモダリティにまたがるグローバル特徴の抽出を促進するために,トランスフォーマーモデルを組み込んだ。
5つのデータセットと4組のモダリティを含む大規模な実験結果から,提案モデルが最先端の視覚的品質を実現し,優れた一般化能力を示した。
関連論文リスト
- Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training [11.129868018236445]
VQA(Visual Question Answering)をマルチモーダル・プレトレーニングに利用して,対象とする病態の特徴に着目したフレームワークのガイドを行う。
テキスト領域に近い準テキスト空間に視覚的特徴を変換するモジュールである準テキスト特徴変換器を用いた新しい事前学習フレームワークを提案する。
私たちのフレームワークは、レポート生成、分類、セグメンテーション、および5つのデータセットにわたる検出の4つのダウンストリームタスクに適用されます。
論文 参考訳(メタデータ) (2024-03-30T02:56:54Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Unified Multi-Modal Image Synthesis for Missing Modality Imputation [23.53016824914539]
そこで本研究では,モダリティの欠如を抑えるために,新しいマルチモーダル画像合成法を提案する。
提案手法は, 各種合成タスクの処理に有効であり, 従来の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-11T16:59:15Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。