論文の概要: Towards Robust Multimodal Open-set Test-time Adaptation via Adaptive Entropy-aware Optimization
- arxiv url: http://arxiv.org/abs/2501.13924v1
- Date: Thu, 23 Jan 2025 18:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:38.938866
- Title: Towards Robust Multimodal Open-set Test-time Adaptation via Adaptive Entropy-aware Optimization
- Title(参考訳): 適応エントロピー認識最適化によるロバストなマルチモーダルオープンセットテスト時間適応に向けて
- Authors: Hao Dong, Eleni Chatzi, Olga Fink,
- Abstract要約: オープンセットテスト時間適応(OSTTA)は、未知のクラスを含む未ラベルのターゲットドメインに、オンラインのソース事前トレーニングモデルを適用することを目的としている。
マルチモーダルオープンセットテスト時間適応に特化して設計された新しいフレームワークであるAdaptive Entropy-aware Optimization (AEO)を提案する。
- 参考スコア(独自算出の注目度): 9.03028904066824
- License:
- Abstract: Test-time adaptation (TTA) has demonstrated significant potential in addressing distribution shifts between training and testing data. Open-set test-time adaptation (OSTTA) aims to adapt a source pre-trained model online to an unlabeled target domain that contains unknown classes. This task becomes more challenging when multiple modalities are involved. Existing methods have primarily focused on unimodal OSTTA, often filtering out low-confidence samples without addressing the complexities of multimodal data. In this work, we present Adaptive Entropy-aware Optimization (AEO), a novel framework specifically designed to tackle Multimodal Open-set Test-time Adaptation (MM-OSTTA) for the first time. Our analysis shows that the entropy difference between known and unknown samples in the target domain strongly correlates with MM-OSTTA performance. To leverage this, we propose two key components: Unknown-aware Adaptive Entropy Optimization (UAE) and Adaptive Modality Prediction Discrepancy Optimization (AMP). These components enhance the ability of model to distinguish unknown class samples during online adaptation by amplifying the entropy difference between known and unknown samples. To thoroughly evaluate our proposed methods in the MM-OSTTA setting, we establish a new benchmark derived from existing datasets. This benchmark includes two downstream tasks and incorporates five modalities. Extensive experiments across various domain shift situations demonstrate the efficacy and versatility of the AEO framework. Additionally, we highlight the strong performance of AEO in long-term and continual MM-OSTTA settings, both of which are challenging and highly relevant to real-world applications. Our source code is available at https://github.com/donghao51/AEO.
- Abstract(参考訳): テスト時間適応(TTA)は、トレーニングデータとテストデータ間の分散シフトに対処する上で大きな可能性を示している。
オープンセットテスト時間適応(OSTTA)は、未知のクラスを含む未ラベルのターゲットドメインに、オンラインのソース事前トレーニングモデルを適用することを目的としている。
複数のモダリティが関与すると、このタスクはより難しくなります。
既存の手法は主に単調なOSTTAに重点を置いており、しばしばマルチモーダルデータの複雑さに対処することなく、低信頼のサンプルをフィルタリングする。
本研究では,マルチモーダルオープンセットテスト時間適応(MM-OSTTA)に初めて取り組むための新しいフレームワークである適応エントロピー認識最適化(AEO)を提案する。
対象領域における未知試料と未知試料のエントロピー差は,MM-OSTTAの性能と強く相関している。
これを活用するために、未知の適応エントロピー最適化(UAE)と適応モード予測離散性最適化(AMP)の2つの重要なコンポーネントを提案する。
これらのコンポーネントは、未知のサンプルと未知のサンプルのエントロピー差を増幅することにより、オンライン適応中に未知のクラスサンプルを識別する能力を高める。
MM-OSTTA設定において提案手法を徹底的に評価するために,既存のデータセットから得られた新しいベンチマークを構築した。
このベンチマークには2つのダウンストリームタスクが含まれ、5つのモダリティが組み込まれている。
様々なドメインシフト状況における大規模な実験は、AEOフレームワークの有効性と汎用性を示している。
さらに,AEOの長期的かつ連続的なMM-OSTTA設定における強靭な性能を強調した。
ソースコードはhttps://github.com/donghao51/AEO.comで公開されています。
関連論文リスト
- Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models [11.545127156146368]
本稿では,事前学習型視覚言語モデル(VLM)のための新しいテスト時間適応手法であるDual Prototype Evolving (DPE)を紹介する。
テスト期間中にターゲットクラスに対するより正確なマルチモーダル表現を段階的にキャプチャするために、テキストとビジュアルの2つのプロトタイプを作成し、進化させます。
提案したDPEは,従来の最先端手法を一貫して上回りながら,競争力のある計算効率を示す。
論文 参考訳(メタデータ) (2024-10-16T17:59:49Z) - Adaptive Mixture Importance Sampling for Automated Ads Auction Tuning [5.775059611731882]
本稿では,大規模レコメンデータシステムにおいて鍵性能指標(KPI)を最適化するための新しいアプローチとして,アダプティブミックスコンパタンスサンプリング(AMIS)を提案する。
大規模なオフラインシミュレーションにより、AMISはノイズの多い環境で単純なガウスの重要度サンプリング(GIS)を著しく上回ることを示す。
提案手法は,大規模検索エンジン上でのオンラインA/B実験を通じて実世界のシナリオで検証される。
論文 参考訳(メタデータ) (2024-09-20T17:03:43Z) - Enhancing Test Time Adaptation with Few-shot Guidance [35.13317598777832]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks [13.065212096469537]
モーダル有意性を考慮した適応マスクサブネット(adaptively Mask Subnetworks, AMSS)と呼ばれる, サンプリングベース, 要素単位の結合最適化手法を提案する。
具体的には,モーダルの重要度を決定するために相互情報レートを組み込んで,パラメータ更新のために各モーダルからフォアグラウンドワークを選択するために,非一様適応サンプリングを用いる。
理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。
論文 参考訳(メタデータ) (2024-04-12T09:22:24Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Dual-Personalizing Adapter for Federated Foundation Models [35.863585349109385]
本稿では,テスト時間分布シフトを同時に処理するフェデレートデュアルパーソナライズアダプタアーキテクチャを提案する。
提案手法の有効性を,異なるNLPタスクのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2024-03-28T08:19:33Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。