論文の概要: Mask to Adapt: Simple Random Masking Enables Robust Continual Test-Time Learning
- arxiv url: http://arxiv.org/abs/2512.08048v1
- Date: Mon, 08 Dec 2025 21:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.727434
- Title: Mask to Adapt: Simple Random Masking Enables Robust Continual Test-Time Learning
- Title(参考訳): Mask to Adapt: シンプルなランダムマスキングにより、継続的なテスト時間学習が可能に
- Authors: Chandler Timm C. Doloriel,
- Abstract要約: 近年のCTTA(Continuous Test-time adapt)法では,マスキングを用いて学習を規制しているが,校正された不確実性や安定した注意点に依存することが多い。
マスクからアダプティブへのアプローチ (M2A) を提案する。
我々はM2Aが平均誤差8.3%/19.8%/39.2%に達し、CTTAベースラインを上回り、あるいは一致していることを示した。
- 参考スコア(独自算出の注目度): 1.1458853556386797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distribution shifts at test time degrade image classifiers. Recent continual test-time adaptation (CTTA) methods use masking to regulate learning, but often depend on calibrated uncertainty or stable attention scores and introduce added complexity. We ask: do we need custom-made masking designs, or can a simple random masking schedule suffice under strong corruption? We introduce Mask to Adapt (M2A), a simple CTTA approach that generates a short sequence of masked views (spatial or frequency) and adapts with two objectives: a mask consistency loss that aligns predictions across different views and an entropy minimization loss that encourages confident outputs. Motivated by masked image modeling, we study two common masking families -- spatial masking and frequency masking -- and further compare subtypes within each (spatial: patch vs.\ pixel; frequency: all vs.\ low vs.\ high). On CIFAR10C/CIFAR100C/ImageNetC (severity~5), M2A (Spatial) attains 8.3\%/19.8\%/39.2\% mean error, outperforming or matching strong CTTA baselines, while M2A (Frequency) lags behind. Ablations further show that simple random masking is effective and robust. These results indicate that a simple random masking schedule, coupled with consistency and entropy objectives, is sufficient to drive effective test-time adaptation without relying on uncertainty or attention signals.
- Abstract(参考訳): テスト時間における分布シフトは画像分類器を劣化させる。
近年のCTTA(Continuous Test-time adapt)法では,マスキングを用いて学習を規制しているが,校正された不確実性や安定した注意スコアに依存し,さらに複雑化がもたらされることが多い。
カスタムメイドのマスクデザインが必要でしょうか?
マスク・トゥ・アダプティブ(M2A)は,マスキング・ビューの短いシーケンス(空間あるいは周波数)を生成し,異なるビュー間で予測を整合させるマスク整合性損失と,信頼性のある出力を促すエントロピー最小化損失の2つの目的に適応するシンプルなCTTA手法である。
マスク画像モデリングによって動機付けられた2つの一般的なマスキングファミリー(空間マスキングと周波数マスキング)を研究し、各サブタイプ(空間:パッチ対パッチ)を比較した。
pixel (複数形 pixels)
対 対 対 対 対 対 対 対 対 対 対 対 対 対 対 対 対 対 対 対 対 対 対 対
最高)。
CIFAR10C/CIFAR100C/ImageNetC (severity~5) では、M2A (Spatial) は平均誤差 8.3\%/19.8\%/39.2\% に達し、CTTA ベースラインを上向きまたは一致させ、M2A (Frequency) は遅れている。
アブレーションは、単純なランダムマスキングが効果的で堅牢であることを示している。
これらの結果から,整合性やエントロピーの目標と組み合わせた単純なランダムマスキングスケジュールは,不確実性や注意信号に頼ることなく,効果的なテスト時間適応を実現するのに十分であることが示唆された。
関連論文リスト
- Halton Scheduler For Masked Generative Image Transformer [51.82285573627426]
Masked Generative Image Transformers (MaskGIT)はスケーラブルで効率的な画像生成フレームワークとして登場した。
トークン間の相互情報に基づいて,MaskGITにおけるサンプリング対象を解析する。
そこで本研究では,最初の信頼性スケジューラの代わりに,Haltonスケジューラに基づく新しいサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-21T12:00:59Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Agnostic Multi-Robust Learning Using ERM [19.313739782029185]
頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。
これとは対照的に、攻撃者は1つの摂動を成功させる必要がある。
本稿では,新しいマルチグループ設定を導入し,新しいマルチロバスト学習問題を提案する。
論文 参考訳(メタデータ) (2023-03-15T21:30:14Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Application of Yolo on Mask Detection Task [1.941730292017383]
厳密なマスク着用政策は、公的な感覚だけでなく、実際的な困難にも適合している。
マスクチェックを自動化する既存の技術は、リアルタイム監視カメラの映像にディープラーニングモデルを使用している。
本研究は,Mask-R-CNNをより効率的なモデル「YOLO」に置き換えたマスク検出手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。