論文の概要: Smoothing the Shift: Towards Stable Test-Time Adaptation under Complex Multimodal Noises
- arxiv url: http://arxiv.org/abs/2503.02616v1
- Date: Tue, 04 Mar 2025 13:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:03.642366
- Title: Smoothing the Shift: Towards Stable Test-Time Adaptation under Complex Multimodal Noises
- Title(参考訳): シフトの平滑化:複雑なマルチモーダル雑音下での安定なテスト時間適応に向けて
- Authors: Zirun Guo, Tao Jin,
- Abstract要約: Test-Time Adaptation (TTA) は、未ラベルのテストデータを使用して、ソースデータにアクセスせずに分散シフトに取り組むことを目的としている。
既存のTTAメソッドは、突発的な分布シフトがソースモデルからの以前の知識を破壊するため、このようなマルチモーダルシナリオで失敗する。
そこで我々は,2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 3.7816957214446103
- License:
- Abstract: Test-Time Adaptation (TTA) aims to tackle distribution shifts using unlabeled test data without access to the source data. In the context of multimodal data, there are more complex noise patterns than unimodal data such as simultaneous corruptions for multiple modalities and missing modalities. Besides, in real-world applications, corruptions from different distribution shifts are always mixed. Existing TTA methods always fail in such multimodal scenario because the abrupt distribution shifts will destroy the prior knowledge from the source model, thus leading to performance degradation. To this end, we reveal a new challenge named multimodal wild TTA. To address this challenging problem, we propose two novel strategies: sample identification with interquartile range Smoothing and unimodal assistance, and Mutual information sharing (SuMi). SuMi smooths the adaptation process by interquartile range which avoids the abrupt distribution shifts. Then, SuMi fully utilizes the unimodal features to select low-entropy samples with rich multimodal information for optimization. Furthermore, mutual information sharing is introduced to align the information, reduce the discrepancies and enhance the information utilization across different modalities. Extensive experiments on two public datasets show the effectiveness and superiority over existing methods under the complex noise patterns in multimodal data. Code is available at https://github.com/zrguo/SuMi.
- Abstract(参考訳): Test-Time Adaptation (TTA) は、未ラベルのテストデータを使用して、ソースデータにアクセスせずに分散シフトに取り組むことを目的としている。
マルチモーダルデータの文脈では、多重モーダルデータの同時破壊や欠落モーダルなどの単一モーダルデータよりも複雑なノイズパターンが存在する。
さらに、現実世界のアプリケーションでは、異なる分散シフトによる汚職は常に混在している。
既存のTTAメソッドは常にそのようなマルチモーダルシナリオで失敗する。これは、突然の分布シフトがソースモデルからの事前の知識を損なうためである。
この目的のために,マルチモーダル野生TTAという新しい課題を明らかにした。
この課題に対処するため,本論文では,異種間距離の平滑化によるサンプル識別と非動支援,相互情報共有(SuMi)の2つの新しい手法を提案する。
SuMiは、急激な分布シフトを避けるために、石英間距離による適応プロセスを円滑にする。
次に、SuMiは、最適化のためにリッチなマルチモーダル情報を持つ低エントロピーサンプルを選択するために、ユニモーダル特徴を完全に活用する。
さらに、情報を整合させ、相違を低減し、異なるモダリティをまたいだ情報利用を高めるために、相互情報共有を導入する。
2つの公開データセットに対する大規模な実験は、マルチモーダルデータにおける複雑なノイズパターンの下での既存手法の有効性と優位性を示している。
コードはhttps://github.com/zrguo/SuMi.comで入手できる。
関連論文リスト
- MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - FedMAC: Tackling Partial-Modality Missing in Federated Learning with Cross-Modal Aggregation and Contrastive Regularization [11.954904313477176]
Federated Learning(FL)は、分散データソースを使用して機械学習モデルをトレーニングする手法である。
本研究ではFedMACという新しいフレームワークを提案し,FLに欠落した部分モダリティ条件下でのマルチモダリティの解消を図った。
論文 参考訳(メタデータ) (2024-10-04T01:24:02Z) - Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - SUMMIT: Source-Free Adaptation of Uni-Modal Models to Multi-Modal
Targets [30.262094419776208]
現在のアプローチでは、ソースデータが適応中に利用可能であり、ソースはペア化されたマルチモーダルデータで構成されていると仮定している。
本稿では,2つの相補的な擬似ラベル融合法を自動選択するスイッチングフレームワークを提案する。
提案手法は,mIoUが競合するベースラインよりも最大12%向上することを示す。
論文 参考訳(メタデータ) (2023-08-23T02:57:58Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。