論文の概要: MedPrompt: Cross-Modal Prompting for Multi-Task Medical Image
Translation
- arxiv url: http://arxiv.org/abs/2310.02663v1
- Date: Wed, 4 Oct 2023 08:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:02:16.228020
- Title: MedPrompt: Cross-Modal Prompting for Multi-Task Medical Image
Translation
- Title(参考訳): MedPrompt: マルチタスク医療画像翻訳のためのクロスモーダルプロンプト
- Authors: Xuhang Chen, Chi-Man Pun and Shuqiang Wang
- Abstract要約: 臨床診断において欠落したモダリティデータを合成するためには,クロスモーダルな医用画像翻訳が不可欠である。
現在の学習ベースのテクニックは、クロスモーダルやグローバルな特徴のキャプチャに制限がある。
異なるモダリティを効率的に翻訳するマルチタスクフレームワークであるMedPromptを提案する。
- 参考スコア(独自算出の注目度): 46.09663994553627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal medical image translation is an essential task for synthesizing
missing modality data for clinical diagnosis. However, current learning-based
techniques have limitations in capturing cross-modal and global features,
restricting their suitability to specific pairs of modalities. This lack of
versatility undermines their practical usefulness, particularly considering
that the missing modality may vary for different cases. In this study, we
present MedPrompt, a multi-task framework that efficiently translates different
modalities. Specifically, we propose the Self-adaptive Prompt Block, which
dynamically guides the translation network towards distinct modalities. Within
this framework, we introduce the Prompt Extraction Block and the Prompt Fusion
Block to efficiently encode the cross-modal prompt. To enhance the extraction
of global features across diverse modalities, we incorporate the Transformer
model. Extensive experimental results involving five datasets and four pairs of
modalities demonstrate that our proposed model achieves state-of-the-art visual
quality and exhibits excellent generalization capability.
- Abstract(参考訳): 臨床診断において欠落したモダリティデータを合成するためには,クロスモーダルな医用画像翻訳が不可欠である。
しかし、現在の学習ベースの技術は、モダリティとグローバルな特徴を捉えるのに制限があり、特定のモダリティのペアに対する適合性を制限している。
この汎用性の欠如は、特に欠落したモダリティが異なるケースで異なることを考えると、その実用性を損なう。
本研究では,異なるモダリティを効率的に翻訳するマルチタスクフレームワークであるmedpromptを提案する。
具体的には,翻訳ネットワークを動的に異なるモダリティへと導く自己適応型プロンプトブロックを提案する。
本フレームワークでは,クロスモーダルプロンプトを効率的にエンコードするために,プロンプト抽出ブロックとプロンプト融合ブロックを導入する。
多様なモダリティにまたがるグローバル特徴の抽出を促進するために,トランスフォーマーモデルを組み込んだ。
5つのデータセットと4組のモダリティを含む大規模な実験結果から,提案モデルが最先端の視覚的品質を実現し,優れた一般化能力を示した。
関連論文リスト
- Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities [17.723207830420996]
マルチモーダル学習法は、1つ以上のモダリティが欠如している場合、劣化した性能を示すことが多い。
本稿では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト-視覚的マルチモーダル学習手法Chameleonを提案する。
実験は、Hateful Memes, UPMC Food-101, MM-IMDb, Ferramentaの4つの一般的なデータセットで行われている。
論文 参考訳(メタデータ) (2024-07-23T07:29:57Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation [68.63955715643974]
Omnimodal Learning(GTP-4o)のためのモダリティプロンプト不均質グラフ
我々は、Omnimodal Learning(GTP-4o)のための革新的モダリティプロンプト不均質グラフを提案する。
論文 参考訳(メタデータ) (2024-07-08T01:06:13Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Unified Multi-Modal Image Synthesis for Missing Modality Imputation [23.681228202899984]
そこで本研究では,モダリティの欠如を抑えるために,新しいマルチモーダル画像合成法を提案する。
提案手法は, 各種合成タスクの処理に有効であり, 従来の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-11T16:59:15Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。