論文の概要: Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers
- arxiv url: http://arxiv.org/abs/2405.12781v1
- Date: Tue, 21 May 2024 13:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:10:09.390173
- Title: Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers
- Title(参考訳): 自己監督型モダリティ-スイム変圧器の非依存事前試験
- Authors: Abhiroop Talasila, Maitreya Maity, U. Deva Priyakumar,
- Abstract要約: 我々はSwin Transformerを拡張して、異なる医用画像モダリティから学習し、下流のパフォーマンスを向上させる。
SwinFUSEと呼ばれるこのモデルは,事前学習中にCT(Computed Tomography)とMRI(Magical Resonance Images)の両方から学習し,補完的な特徴表現をもたらす。
- 参考スコア(独自算出の注目度): 0.7496510641958004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised pre-training has emerged as a transformative paradigm, displaying remarkable advancements in various domains. However, the susceptibility to domain shift, where pre-training data distribution differs from fine-tuning, poses a significant obstacle. To address this, we augment the Swin Transformer to learn from different medical imaging modalities, enhancing downstream performance. Our model, dubbed SwinFUSE (Swin Multi-Modal Fusion for UnSupervised Enhancement), offers three key advantages: (i) it learns from both Computed Tomography (CT) and Magnetic Resonance Images (MRI) during pre-training, resulting in complementary feature representations; (ii) a domain-invariance module (DIM) that effectively highlights salient input regions, enhancing adaptability; (iii) exhibits remarkable generalizability, surpassing the confines of tasks it was initially pre-trained on. Our experiments on two publicly available 3D segmentation datasets show a modest 1-2% performance trade-off compared to single-modality models, yet significant out-performance of up to 27% on out-of-distribution modality. This substantial improvement underscores our proposed approach's practical relevance and real-world applicability. Code is available at: https://github.com/devalab/SwinFUSE
- Abstract(参考訳): 教師なし事前訓練はトランスフォーメーションパラダイムとして現れ、様々な領域で顕著な進歩を見せている。
しかし、事前学習データ分布が異なる領域シフトに対する感受性は、微調整とは異なるため、大きな障害となる。
そこで我々は,Swin Transformerを改良して,異なる医用画像モダリティから学習し,下流のパフォーマンスを向上させる。
SwinFUSE(Swin Multi-Modal Fusion for UnSupervised Enhancement)と呼ばれる私たちのモデルには3つの利点があります。
i)CT(CT)とMRI(MRI)の両方から事前訓練中に学習し,相補的特徴表現をもたらす。
2ドメイン不変モジュール(DIM)は、健全な入力領域を効果的に強調し、適応性を向上する。
(iii) 当初訓練されていた作業の制限を超越して、目覚ましい一般化性を示す。
公開されている2つの3Dセグメンテーションデータセットに対する実験は、単一モダリティモデルと比較して、わずか1-2%のパフォーマンストレードオフを示したが、アウト・オブ・ディストリビューション・モダリティでは最大27%の大幅なアウトパフォーマンスを示した。
この大幅な改善は、提案されたアプローチの実践的妥当性と実世界の適用性を強調します。
コードは、https://github.com/devalab/SwinFUSEで入手できる。
関連論文リスト
- Feature Fusion Transferability Aware Transformer for Unsupervised Domain Adaptation [1.9035011984138845]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしターゲットドメインのパフォーマンスを改善することを目的としている。
近年の研究では、視覚変換器(ViT)の応用が期待されている。
本稿では,UDAタスクにおけるVT性能を向上させるために,FFTAT(Feature Fusion Transferability Aware Transformer)を提案する。
論文 参考訳(メタデータ) (2024-11-10T22:23:12Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Pseudo-Trilateral Adversarial Training for Domain Adaptive
Traversability Prediction [8.145900996884993]
トラバーサビリティ予測は、自律ナビゲーションの基本的な認識能力である。
非教師なしドメイン適応(UDA)を行うために、粗大なアライメント(CALI)を採用する新しい知覚モデルを提案する。
いくつかの挑戦的なドメイン適応設定において、提案したモデルが複数のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-26T00:39:32Z) - Improving Neural Additive Models with Bayesian Principles [54.29602161803093]
ニューラル加算モデル(NAM)は、個別の加算サブネットワークでキャリブレーションされた入力特徴を扱うことにより、ディープニューラルネットワークの透明性を高める。
本研究では,Laplace-approximated NAM (LA-NAMs) を開発した。
論文 参考訳(メタデータ) (2023-05-26T13:19:15Z) - Robust Representation Learning with Self-Distillation for Domain Generalization [2.0817769887373245]
本稿では,ロバスト表現学習(Robust Representation Learning with Self-Distillation)と呼ばれる新しい領域一般化手法を提案する。
3つのデータセットの最先端データに対して、平均精度を1.2%から2.3%に改善する。
論文 参考訳(メタデータ) (2023-02-14T07:39:37Z) - Robust and Efficient Segmentation of Cross-domain Medical Images [37.38861543166964]
医用画像の堅牢かつ効率的なセグメンテーションのための一般化可能な知識蒸留法を提案する。
本稿では,2つの一般化可能な知識蒸留方式,Dual Contrastive Graph Distillation (DCGD)とDomain-Invariant Cross Distillation (DICD)を提案する。
DICDでは、2つのモデル(例えば教師と学生)のドメイン不変セマンティックベクターをMSANのヘッダー交換によってクロスコンストラクト特徴に活用する。
論文 参考訳(メタデータ) (2022-07-26T15:55:36Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Con$^{2}$DA: Simplifying Semi-supervised Domain Adaptation by Learning
Consistent and Contrastive Feature Representations [1.2891210250935146]
Con$2$DAは、半教師付き学習の最近の進歩を半教師付きドメイン適応問題に拡張するフレームワークである。
我々のフレームワークは、与えられた入力に対してデータ変換を行うことで、関連するサンプルのペアを生成する。
我々は、異なる損失関数を使用して、関連するデータペアのサンプルの特徴表現間の一貫性を強制します。
論文 参考訳(メタデータ) (2022-04-04T15:05:45Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。