論文の概要: Adapting Frozen Mono-modal Backbones for Multi-modal Registration via Contrast-Agnostic Instance Optimization
- arxiv url: http://arxiv.org/abs/2603.26393v1
- Date: Fri, 27 Mar 2026 13:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.513776
- Title: Adapting Frozen Mono-modal Backbones for Multi-modal Registration via Contrast-Agnostic Instance Optimization
- Title(参考訳): コントラスト非依存型インスタンス最適化による凍結型モノモーダルバックボーンのマルチモーダル登録への適応
- Authors: Yi Zhang, Yidong Zhao, Qian Tao,
- Abstract要約: 我々は,凍結事前訓練されたtextbfmono-modal 画像登録モデルと,textbfmulti-modal 画像登録のための軽量適応パイプラインを統合する登録フレームワークを提案する。
我々は,Learner2Reg 2025 LUMIR検証セットに対するアプローチを評価し,事前訓練したモノモーダルバックボーンに対する一貫した改善を観察する。
- 参考スコア(独自算出の注目度): 6.63504422595921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deformable image registration remains a central challenge in medical image analysis, particularly under multi-modal scenarios where intensity distributions vary significantly across scans. While deep learning methods provide efficient feed-forward predictions, they often fail to generalize robustly under distribution shifts at test time. A straightforward remedy is full network fine-tuning, yet for modern architectures such as Transformers or deep U-Nets, this adaptation is prohibitively expensive in both memory and runtime when operating in 3D. Meanwhile, the naive fine-tuning struggles more with potential degradation in performance in the existence of drastic domain shifts. In this work, we propose a registration framework that integrates a frozen pretrained \textbf{mono-modal} registration model with a lightweight adaptation pipeline for \textbf{multi-modal} image registration. Specifically, we employ style transfer based on contrast-agnostic representation generation and refinement modules to bridge modality and domain gaps with instance optimization at test time. This design is orthogonal to the choice of backbone mono-modal model, thus avoids the computational burden of full fine-tuning while retaining the flexibility to adapt to unseen domains. We evaluate our approach on the Learn2Reg 2025 LUMIR validation set and observe consistent improvements over the pretrained state-of-the-art mono-modal backbone. In particular, the method ranks second on the multi-modal subset, third on the out-of-domain subset, and achieves fourth place overall in Dice score. These results demonstrate that combining frozen mono-modal models with modality adaptation and lightweight instance optimization offers an effective and practical pathway toward robust multi-modal registration.
- Abstract(参考訳): 変形可能な画像登録は、特にスキャン毎に強度分布が著しく異なるマルチモーダルシナリオにおいて、医用画像解析において依然として中心的な課題である。
ディープラーニングは効率的なフィードフォワード予測を提供するが、テスト時に分散シフトの下では、堅牢に一般化できないことが多い。
しかし、TransformersやDeep U-Netsのようなモダンなアーキテクチャでは、3Dで動く場合、メモリとランタイムの両方でこの適応は違法に高価である。
一方、素直な微調整は、急激なドメインシフトの存在下での性能低下とより競合する。
本研究では,凍結事前学習した \textbf{mono-modal} 画像登録のための軽量適応パイプラインと,凍結した \textbf{multi-modal} 画像登録モデルを統合する登録フレームワークを提案する。
具体的には、コントラストに依存しない表現生成と改良モジュールに基づくスタイル転送を用いて、テスト時にインスタンス最適化を伴うモダリティとドメインギャップをブリッジする。
この設計は、バックボーン・モノモーダルモデルの選択に直交しており、未確認領域に適応する柔軟性を維持しながら、完全な微調整の計算負担を回避することができる。
我々は,Learner2Reg 2025 LUMIR検証セットに対するアプローチを評価し,事前訓練したモノモーダルバックボーンに対する一貫した改善を観察する。
特に、この方法はマルチモーダル部分集合で2位、ドメイン外部分集合で3位、Diceスコアで4位となる。
これらの結果は、凍結単モードモデルとモダリティ適応と軽量インスタンス最適化を組み合わせることで、ロバストなマルチモーダル登録への効果的かつ実用的な経路を提供することを示した。
関連論文リスト
- Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation [8.840077295284393]
MoBaNetはパラメータ効率とモダリティバランスを持つ対称核融合フレームワークである。
ほとんど凍結されたVFMバックボーン上に構築されたMoBaNetは、一般化可能な表現を維持するために対称なデュアルストリームアーキテクチャを採用している。
ISPRS VaihingenとPotsdamベンチマークの実験は、MoBaNetが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-03-18T13:23:58Z) - Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-11-09T11:13:32Z) - Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge [16.958159611661813]
Latent Denoising Diffusion Bridge Model (LDDBM)は、モーダル翻訳のための汎用フレームワークである。
共用ラテント空間で演算することにより、任意のモード間のブリッジを、整列次元を必要とせずに学習する。
提案手法は任意のモダリティペアをサポートし,マルチビューから3次元形状生成,画像超解像,マルチビューシーン合成など,多様なMTタスクに強く依存する。
論文 参考訳(メタデータ) (2025-10-23T17:59:54Z) - A Flow Model with Low-Rank Transformers for Incomplete Multimodal Survival Analysis [36.102030480314816]
本稿では,低ランクトランスフォーマーとフローベース生成モデルを組み合わせた,堅牢かつ柔軟なマルチモーダルサバイバル予測手法を提案する。
提案手法は, 完全モダリティ条件下での最先端性能を実現するだけでなく, 不完全モダリティシナリオ下での堅牢かつ優れた精度も維持する。
論文 参考訳(メタデータ) (2025-10-22T02:27:05Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。