論文の概要: Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2511.22862v1
- Date: Fri, 28 Nov 2025 03:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.759516
- Title: Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation
- Title(参考訳): マルチモーダルテスト時間適応のための進行的再アライメントによるブリッジングモーダリティ
- Authors: Jiacheng Li, Songhe Feng,
- Abstract要約: テスト時間適応(TTA)は、未ラベルのテストデータのみを使用したオンラインモデル適応を可能にする。
マルチモーダルのシナリオでは、異なるモダリティをまたいだ分布の度合いの変化は複雑なカップリング効果をもたらす。
本稿では,BriMPR(Progressive Re-alignment)によるブリッジングモダリティ( Bridging Modalities)と呼ばれる新しいTTAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 39.02105398462778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time adaptation (TTA) enables online model adaptation using only unlabeled test data, aiming to bridge the gap between source and target distributions. However, in multimodal scenarios, varying degrees of distribution shift across different modalities give rise to a complex coupling effect of unimodal shallow feature shift and cross-modal high-level semantic misalignment, posing a major obstacle to extending existing TTA methods to the multimodal field. To address this challenge, we propose a novel multimodal test-time adaptation (MMTTA) framework, termed as Bridging Modalities via Progressive Re-alignment (BriMPR). BriMPR, consisting of two progressively enhanced modules, tackles the coupling effect with a divide-and-conquer strategy. Specifically, we first decompose MMTTA into multiple unimodal feature alignment sub-problems. By leveraging the strong function approximation ability of prompt tuning, we calibrate the unimodal global feature distributions to their respective source distributions, so as to achieve the initial semantic re-alignment across modalities. Subsequently, we assign the credible pseudo-labels to combinations of masked and complete modalities, and introduce inter-modal instance-wise contrastive learning to further enhance the information interaction among modalities and refine the alignment. Extensive experiments on MMTTA tasks, including both corruption-based and real-world domain shift benchmarks, demonstrate the superiority of our method. Our source code is available at [this URL](https://github.com/Luchicken/BriMPR).
- Abstract(参考訳): テスト時間適応(TTA)は、未ラベルのテストデータのみを使用して、ソースとターゲットの分布のギャップを埋めることを目的としたオンラインモデル適応を可能にする。
しかし、マルチモーダルのシナリオでは、異なるモーダルの分布シフトの度合いが異なるため、非モーダルな浅層特徴シフトとクロスモーダルなハイレベルなセマンティック・アライメントの複雑な結合効果が生じ、既存のTTA法をマルチモーダル場に拡張する上で大きな障害となる。
この課題に対処するため,BriMPR(Bridging Modalities via Progressive Re-alignment)と呼ばれる新しいマルチモーダルテスト時適応(MMTTA)フレームワークを提案する。
段階的に拡張された2つのモジュールからなる BriMPR は、分割・分散戦略による結合効果に取り組む。
具体的には,まずMMTTAを複数の単一特徴アライメントサブプロブレムに分解する。
高速チューニングの強い関数近似能力を生かして、各音源分布に対する一様グローバルな特徴分布を校正し、モーダル性にまたがる初期意味的再調整を実現する。
その後、疑似ラベルをマスクと完全モダリティの組み合わせに割り当て、モーダル間の情報相互作用をさらに強化し、アライメントを洗練させるために、モーダル間のインスタンス単位のコントラスト学習を導入する。
MMTTAタスクに対する大規模な実験は、汚職ベースのドメインシフトベンチマークと実世界のドメインシフトベンチマークの両方を含むものであり、本手法の優位性を実証している。
ソースコードは[このURL](https://github.com/Luchicken/BriMPR)で公開しています。
関連論文リスト
- A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition [17.332141776831513]
マルチモーダル感情認識(MER)は、実用上不完全なマルチモーダルに遭遇することが多い。
そこで本研究では,MCULoRA(MCULoRA)と命名されたモダリティの組み合わせに基づく,一様疎結合な動的低ランク適応手法を提案する。
論文 参考訳(メタデータ) (2025-07-15T11:15:35Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。
本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。
本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文 参考訳(メタデータ) (2024-12-22T06:12:03Z) - AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment [37.213291617683325]
クロスモーダルアライメントはマルチモーダル表現融合に不可欠である。
マルチモーダル核融合の効率的かつ効率的な方法であるAlignMambaを提案する。
完全かつ不完全なマルチモーダル核融合タスクの実験は,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-12-01T14:47:41Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。