Fugu-MT 論文翻訳(概要): Unified Multi-modal Diagnostic Framework with Reconstruction Pre-training and Heterogeneity-combat Tuning

論文の概要: Unified Multi-modal Diagnostic Framework with Reconstruction Pre-training and Heterogeneity-combat Tuning

arxiv url: http://arxiv.org/abs/2404.06057v1
Date: Tue, 9 Apr 2024 06:47:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 15:39:15.388194
Title: Unified Multi-modal Diagnostic Framework with Reconstruction Pre-training and Heterogeneity-combat Tuning
Title（参考訳）: 再構成前訓練と異種性結合調整を併用した統合型マルチモーダル診断フレームワーク
Authors: Yupei Zhang, Li Pan, Qiushi Yang, Tan Li, Zhen Chen,
Abstract要約: 本稿では,事前トレーニングと下流チューニングを調整した統一医療マルチモーダル診断(UMD)フレームワークを提案する。具体的には,多段階再構成事前訓練(MR-Pretraining)戦略を提案する。特に、TD-Calibは、下流データセットの分布に関する事前訓練されたモデルを微調整し、GM-Coordは、異なるモードの動的最適化状況に応じて勾配重みを調整する。
参考スコア（独自算出の注目度）: 14.556686415877602
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical multi-modal pre-training has revealed promise in computer-aided diagnosis by leveraging large-scale unlabeled datasets. However, existing methods based on masked autoencoders mainly rely on data-level reconstruction tasks, but lack high-level semantic information. Furthermore, two significant heterogeneity challenges hinder the transfer of pre-trained knowledge to downstream tasks, \textit{i.e.}, the distribution heterogeneity between pre-training data and downstream data, and the modality heterogeneity within downstream data. To address these challenges, we propose a Unified Medical Multi-modal Diagnostic (UMD) framework with tailored pre-training and downstream tuning strategies. Specifically, to enhance the representation abilities of vision and language encoders, we propose the Multi-level Reconstruction Pre-training (MR-Pretrain) strategy, including a feature-level and data-level reconstruction, which guides models to capture the semantic information from masked inputs of different modalities. Moreover, to tackle two kinds of heterogeneities during the downstream tuning, we present the heterogeneity-combat downstream tuning strategy, which consists of a Task-oriented Distribution Calibration (TD-Calib) and a Gradient-guided Modality Coordination (GM-Coord). In particular, TD-Calib fine-tunes the pre-trained model regarding the distribution of downstream datasets, and GM-Coord adjusts the gradient weights according to the dynamic optimization status of different modalities. Extensive experiments on five public medical datasets demonstrate the effectiveness of our UMD framework, which remarkably outperforms existing approaches on three kinds of downstream tasks.
Abstract（参考訳）: 医療用マルチモーダルプレトレーニングは、大規模なラベルなしデータセットを活用することにより、コンピュータ支援診断において有望であることが判明した。しかし、マスク付きオートエンコーダに基づく既存の手法は、主にデータレベルの再構築作業に依存しているが、高レベルのセマンティック情報はない。さらに、事前学習された知識を下流のタスクに転送することを妨げる2つの重要な不均一性、事前学習されたデータと下流データの分布不均一性、下流データ内のモダリティ不均一性である。これらの課題に対処するため、我々は、トレーニング前と下流の調整戦略を調整した統一医療マルチモーダル診断(UMD)フレームワークを提案する。具体的には、視覚と言語エンコーダの表現能力を高めるために、特徴レベルとデータレベルの再構成を含むマルチレベル再構成事前訓練(MR-Pretraining)戦略を提案する。さらに、下流調整における2種類の不均一性に対処するため、タスク指向分布校正(TD-Calib)とグラディエント誘導モードコーディネート(GM-Coord)からなる下流調整戦略を提案する。特に、TD-Calibは、下流データセットの分布に関する事前訓練されたモデルを微調整し、GM-Coordは、異なるモードの動的最適化状況に応じて勾配重みを調整する。 5つの公開医療データセットに対する大規模な実験は、我々のUDDフレームワークの有効性を示し、既存の3種類の下流タスクのアプローチを著しく上回っている。

関連論文リスト

Modality-Specific Enhancement and Complementary Fusion for Semi-Supervised Multi-Modal Brain Tumor Segmentation [6.302779966909783]
医用画像セグメンテーションのための新しい半教師付きマルチモーダルフレームワークを提案する。モダリティ固有のエンハンシングモジュール(MEM)を導入し、各モダリティに意味的なユニークな手がかりを強化する。また,学習可能な相補的情報融合(CIF)モジュールを導入し,モダリティ間の相補的知識を適応的に交換する。
論文参考訳（メタデータ） (2025-12-10T16:15:17Z)
MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。最先端の微調整戦略を一貫して上回ります。
論文参考訳（メタデータ） (2025-09-07T15:22:53Z)
impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文参考訳（メタデータ） (2025-08-08T10:01:16Z)
Learning from Heterogeneous Structural MRI via Collaborative Domain Adaptation for Late-Life Depression Assessment [24.340328016766183]
T1強調MRIを用いたLDD検出のための協調的ドメイン適応フレームワークを提案する。このフレームワークは、ラベル付きソースデータに対する教師付きトレーニング、自己教師付きターゲット特徴適応、ラベルなしターゲットデータに対する協調トレーニングの3段階で構成されている。マルチサイトT1強調MRIデータを用いて行った実験により、このフレームワークは最先端の非教師なし領域適応法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-07-30T01:38:32Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Towards Robust Multimodal Physiological Foundation Models: Handling Arbitrary Missing Modalities [9.785262633953794]
生理オムニ (Phylo Omni) は、マルチモーダルな生理的信号解析の基礎モデルである。分離されたマルチモーダル・トークンーザを訓練し、マスクされた信号の事前訓練を可能にする。最先端のパフォーマンスを達成しつつ、モダリティの欠如に対して強い堅牢性を維持します。
論文参考訳（メタデータ） (2025-04-28T09:00:04Z)
Incomplete Modality Disentangled Representation for Ophthalmic Disease Grading and Diagnosis [16.95583564875497]
本稿では,不完全なモダリティ・ディアンタングル表現(IMDR)戦略を提案する。 4つのマルチモーダルデータセットの実験により、提案したIMDRが最先端の手法を大幅に上回ることを示した。
論文参考訳（メタデータ） (2025-02-17T12:10:35Z)
Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文参考訳（メタデータ） (2025-01-30T06:49:57Z)
AMM-Diff: Adaptive Multi-Modality Diffusion Network for Missing Modality Imputation [2.8498944632323755]
臨床実践において、フルイメージングは必ずしも実現可能ではなく、多くの場合、複雑な取得プロトコル、厳格なプライバシ規則、特定の臨床ニーズのためである。有望な解決策は、利用可能なものから欠落したモダリティが生成されるデータ計算の欠如である。適応多モード拡散ネットワーク (AMM-Diff) を提案する。
論文参考訳（メタデータ） (2025-01-22T12:29:33Z)
HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文参考訳（メタデータ） (2024-11-02T06:43:54Z)
Repurposing Foundation Model for Generalizable Medical Time Series Classification [16.21546283978257]
FORMEDは、バックボーン基盤モデルを再利用して、目に見えないデータセット上で高度に一般化可能なMedTS分類を可能にするフレームワークである。我々は,5種類のMedTSデータセットを用いて,11のタスク特化モデル (TSM) と4のタスク特化適応 (TSA) 手法のベンチマークを行った。以上の結果から,F1スコア(ADFTDデータセット上で)を最大35%向上させることができた。
論文参考訳（メタデータ） (2024-10-03T23:50:04Z)
Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文参考訳（メタデータ） (2024-09-17T17:22:35Z)
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。 CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文参考訳（メタデータ） (2024-09-08T15:02:25Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Multi-Modal Federated Learning for Cancer Staging over Non-IID Datasets with Unbalanced Modalities [9.476402318365446]
本研究では,データサンプルの不均一性だけでなく,機関間のデータモダリティの固有不均一性と不均一性を両立する新しいFLアーキテクチャを提案する。マルチモーダルFLに適した分散勾配ブレンディングと近接対応クライアント重み付け戦略を考案した。
論文参考訳（メタデータ） (2024-01-07T23:45:01Z)
Masked Contrastive Reconstruction for Cross-modal Medical Image-Report Retrieval [3.5314225883644945]
クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
論文参考訳（メタデータ） (2023-12-26T01:14:10Z)
Dynamic Multimodal Information Bottleneck for Multimodality Classification [26.65073424377933]
本稿では,頑健な融合特徴表現を実現するための動的マルチモーダル情報ボトルネックフレームワークを提案する。具体的には、情報ボトルネックモジュールは、融合機能におけるタスク関連情報やノイズをフィルタリングするのに役立ちます。提案手法は最先端の手法を超越し, 大規模ノイズチャネルが存在する場合, 性能を維持できる唯一の手法である。
論文参考訳（メタデータ） (2023-11-02T08:34:08Z)
ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文参考訳（メタデータ） (2023-09-03T07:55:46Z)
Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。 C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文参考訳（メタデータ） (2021-07-25T20:15:16Z)
G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。 2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文参考訳（メタデータ） (2021-01-27T19:28:04Z)
MS-Net: Multi-Site Network for Improving Prostate Segmentation with Heterogeneous MRI Data [75.73881040581767]
本稿では,ロバスト表現を学習し,前立腺のセグメンテーションを改善するための新しいマルチサイトネットワーク(MS-Net)を提案する。当社のMS-Netは,すべてのデータセットのパフォーマンスを一貫して改善し,マルチサイト学習における最先端の手法よりも優れています。
論文参考訳（メタデータ） (2020-02-09T14:11:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。