論文の概要: Smoothing the Shift: Towards Stable Test-Time Adaptation under Complex Multimodal Noises
- arxiv url: http://arxiv.org/abs/2503.02616v1
- Date: Tue, 04 Mar 2025 13:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:39.55909
- Title: Smoothing the Shift: Towards Stable Test-Time Adaptation under Complex Multimodal Noises
- Title(参考訳): シフトの平滑化:複雑なマルチモーダル雑音下での安定なテスト時間適応に向けて
- Authors: Zirun Guo, Tao Jin,
- Abstract要約: Test-Time Adaptation (TTA) は、未ラベルのテストデータを使用して、ソースデータにアクセスせずに分散シフトに取り組むことを目的としている。
既存のTTAメソッドは、突発的な分布シフトがソースモデルからの以前の知識を破壊するため、このようなマルチモーダルシナリオで失敗する。
そこで我々は,2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 3.7816957214446103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-Time Adaptation (TTA) aims to tackle distribution shifts using unlabeled test data without access to the source data. In the context of multimodal data, there are more complex noise patterns than unimodal data such as simultaneous corruptions for multiple modalities and missing modalities. Besides, in real-world applications, corruptions from different distribution shifts are always mixed. Existing TTA methods always fail in such multimodal scenario because the abrupt distribution shifts will destroy the prior knowledge from the source model, thus leading to performance degradation. To this end, we reveal a new challenge named multimodal wild TTA. To address this challenging problem, we propose two novel strategies: sample identification with interquartile range Smoothing and unimodal assistance, and Mutual information sharing (SuMi). SuMi smooths the adaptation process by interquartile range which avoids the abrupt distribution shifts. Then, SuMi fully utilizes the unimodal features to select low-entropy samples with rich multimodal information for optimization. Furthermore, mutual information sharing is introduced to align the information, reduce the discrepancies and enhance the information utilization across different modalities. Extensive experiments on two public datasets show the effectiveness and superiority over existing methods under the complex noise patterns in multimodal data. Code is available at https://github.com/zrguo/SuMi.
- Abstract(参考訳): Test-Time Adaptation (TTA) は、未ラベルのテストデータを使用して、ソースデータにアクセスせずに分散シフトに取り組むことを目的としている。
マルチモーダルデータの文脈では、多重モーダルデータの同時破壊や欠落モーダルなどの単一モーダルデータよりも複雑なノイズパターンが存在する。
さらに、現実世界のアプリケーションでは、異なる分散シフトによる汚職は常に混在している。
既存のTTAメソッドは常にそのようなマルチモーダルシナリオで失敗する。これは、突然の分布シフトがソースモデルからの事前の知識を損なうためである。
この目的のために,マルチモーダル野生TTAという新しい課題を明らかにした。
この課題に対処するため,本論文では,異種間距離の平滑化によるサンプル識別と非動支援,相互情報共有(SuMi)の2つの新しい手法を提案する。
SuMiは、急激な分布シフトを避けるために、石英間距離による適応プロセスを円滑にする。
次に、SuMiは、最適化のためにリッチなマルチモーダル情報を持つ低エントロピーサンプルを選択するために、ユニモーダル特徴を完全に活用する。
さらに、情報を整合させ、相違を低減し、異なるモダリティをまたいだ情報利用を高めるために、相互情報共有を導入する。
2つの公開データセットに対する大規模な実験は、マルチモーダルデータにおける複雑なノイズパターンの下での既存手法の有効性と優位性を示している。
コードはhttps://github.com/zrguo/SuMi.comで入手できる。
関連論文リスト
- MODIS: Multi-Omics Data Integration for Small and Unpaired Datasets [1.4999444543328289]
MODISは、小または未成熟のデータセットのためのマルチオミクスデータ統合の略である。
私たちは、モダリティの正確なアライメントにどの程度の監督が必要かを調査するために、制御された実験を構築します。
論文 参考訳(メタデータ) (2025-03-24T16:33:11Z) - MICINet: Multi-Level Inter-Class Confusing Information Removal for Reliable Multimodal Classification [57.08108545219043]
また,Multi-Level Inter-Class Confusing Information removal Network (MICINet) と呼ばれるマルチモーダル分類手法を提案する。
MICINetは、これらのノイズをクラス間統合情報(textitICI)の概念に統合し、グローバルレベルと個人レベルのノイズを除去することで、信頼性の高いノイズ除去を実現している。
4つのデータセットの実験により、MICINetは様々なノイズ条件下で、他の最先端の信頼性の高いマルチモーダル分類方法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-27T01:33:28Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - FedMAC: Tackling Partial-Modality Missing in Federated Learning with Cross-Modal Aggregation and Contrastive Regularization [11.954904313477176]
Federated Learning(FL)は、分散データソースを使用して機械学習モデルをトレーニングする手法である。
本研究ではFedMACという新しいフレームワークを提案し,FLに欠落した部分モダリティ条件下でのマルチモダリティの解消を図った。
論文 参考訳(メタデータ) (2024-10-04T01:24:02Z) - Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - SUMMIT: Source-Free Adaptation of Uni-Modal Models to Multi-Modal
Targets [30.262094419776208]
現在のアプローチでは、ソースデータが適応中に利用可能であり、ソースはペア化されたマルチモーダルデータで構成されていると仮定している。
本稿では,2つの相補的な擬似ラベル融合法を自動選択するスイッチングフレームワークを提案する。
提案手法は,mIoUが競合するベースラインよりも最大12%向上することを示す。
論文 参考訳(メタデータ) (2023-08-23T02:57:58Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。