論文の概要: Audio-Visual Continual Test-Time Adaptation without Forgetting
- arxiv url: http://arxiv.org/abs/2602.18528v1
- Date: Fri, 20 Feb 2026 04:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.138979
- Title: Audio-Visual Continual Test-Time Adaptation without Forgetting
- Title(参考訳): 定位を伴わないオーディオ・ビジュアル連続テスト時間適応
- Authors: Sarthak Kumar Maharana, Akshay Mehra, Bhavya Ramakrishna, Yunhui Guo, Guan-Ming Su,
- Abstract要約: 連続的なテスト時間適応は、テスト時にソースオーディオ視覚モデルを継続的に適応させることを含む。
本稿では,ソースデータにアクセスすることなく,テスト時間の性能を向上させる手法として,texttAV-CTTA$を提案する。
- 参考スコア(独自算出の注目度): 28.411642462831647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual continual test-time adaptation involves continually adapting a source audio-visual model at test-time, to unlabeled non-stationary domains, where either or both modalities can be distributionally shifted, which hampers online cross-modal learning and eventually leads to poor accuracy. While previous works have tackled this problem, we find that SOTA methods suffer from catastrophic forgetting, where the model's performance drops well below the source model due to continual parameter updates at test-time. In this work, we first show that adapting only the modality fusion layer to a target domain not only improves performance on that domain but can also enhance performance on subsequent domains. Based on this strong cross-task transferability of the fusion layer's parameters, we propose a method, $\texttt{AV-CTTA}$, that improves test-time performance of the models without access to any source data. Our approach works by using a selective parameter retrieval mechanism that dynamically retrieves the best fusion layer parameters from a buffer using only a small batch of test data. These parameters are then integrated into the model, adapted to the current test distribution, and saved back for future use. Extensive experiments on benchmark datasets involving unimodal and bimodal corruptions show our proposed $\texttt{AV-CTTA}$ significantly outperforms existing methods while minimizing catastrophic forgetting.
- Abstract(参考訳): 音声-視覚的連続的なテスト時間適応は、テスト時にソースオーディオ-視覚モデルを継続的に適用し、ラベルなしの非定常領域に適応させ、いずれかのモダリティを分散的にシフトさせることで、オンラインのクロスモーダル学習を妨げ、最終的には精度が低下する。
従来の研究ではこの問題に対処していたが、テスト時に連続パラメータの更新によってモデルの性能がソースモデルよりかなり下がった場合、SOTAメソッドが破滅的な忘れ込みに悩まされることが判明した。
本研究は,まず,対象ドメインにモダリティ融合層のみを適用することで,そのドメインの性能を向上するだけでなく,その後のドメインの性能を向上させることができることを示す。
核融合層のパラメータの強いクロスタスク転送性に基づいて、ソースデータにアクセスせずにモデルのテスト時間性能を向上させる$\texttt{AV-CTTA}$を提案する。
提案手法は,少数のテストデータのみを用いて,バッファから最適な融合層パラメータを動的に取得する選択パラメータ検索機構を用いて機能する。
これらのパラメータはモデルに統合され、現在のテスト分布に適合し、将来の使用のために保存される。
一元的および二元的腐敗を含むベンチマークデータセットの大規模な実験により、提案した$\texttt{AV-CTTA}$は、破滅的な忘れを最小化しながら、既存の手法を大幅に上回る結果となった。
関連論文リスト
- MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging [29.58798660724693]
連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを順次統合する。
テスト時間連続モデルマージの新しいフレームワークであるMINGLEを提案する。
MINGLEは堅牢な一般化を実現し、忘れることを大幅に減らし、従来の最先端の手法を平均で7-9%上回っている。
論文 参考訳(メタデータ) (2025-05-17T07:24:22Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [69.41389326333771]
トレーニングデータとテストデータの間に大きな分散ギャップが存在する場合、視覚言語の基礎モデルは信頼できない。
本稿では,DOTA(DistributiOnal Test-time Adaptation)を提案する。
この分散中心のアプローチは、モデルが継続的に学習し、デプロイメント環境に適応することを可能にする。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Enhancing Test Time Adaptation with Few-shot Guidance [62.49199492255226]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - CONTRAST: Continual Multi-source Adaptation to Dynamic Distributions [42.293444710522294]
Continual Multi-source Adaptation to Dynamic Distributions (CONTRAST) は、複数のソースモデルを最適に組み合わせて動的テストデータに適応する新しい手法である。
提案手法は,ソースモデルを最適に組み合わせ,モデル更新の優先順位付けを最小限に行うことができることを示す。
論文 参考訳(メタデータ) (2024-01-04T22:23:56Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - On-the-Fly Test-time Adaptation for Medical Image Segmentation [63.476899335138164]
ソースモデルをテスト時にターゲットデータに適応させることは、データシフト問題に対する効率的な解決策である。
本稿では、各畳み込みブロックに適応バッチ正規化層を設けるAdaptive UNetという新しいフレームワークを提案する。
テスト期間中、モデルは新しいテストイメージのみを取り込み、ドメインコードを生成して、テストデータに従ってソースモデルの特徴を適応させる。
論文 参考訳(メタデータ) (2022-03-10T18:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。