論文の概要: High-Rate Mixout: Revisiting Mixout for Robust Domain Generalization
- arxiv url: http://arxiv.org/abs/2510.06955v1
- Date: Wed, 08 Oct 2025 12:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.49156
- Title: High-Rate Mixout: Revisiting Mixout for Robust Domain Generalization
- Title(参考訳): ハイレートミックスアウト:ロバストドメイン一般化のためのミックスアウトの再検討
- Authors: Masih Aminbeidokhti, Heitor Rapela Medeiros, Eric Granger, Marco Pedersoli,
- Abstract要約: Dropoutはランダムニューロンの不活性化を通じてアンサンブルをシミュレートすることで、軽量な代替手段を提供する。
ニューロンを不活性化させるのではなく、Mixoutはトレーニング済みのニューロンと微調整した体重のサブセットを交換することで過剰な適合を緩和する。
提案手法であるHigh-rate Mixoutは,アンサンブル法に匹敵する領域外精度を実現し,トレーニングコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 26.415314255785656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensembling fine-tuned models initialized from powerful pre-trained weights is a common strategy to improve robustness under distribution shifts, but it comes with substantial computational costs due to the need to train and store multiple models. Dropout offers a lightweight alternative by simulating ensembles through random neuron deactivation; however, when applied to pre-trained models, it tends to over-regularize and disrupt critical representations necessary for generalization. In this work, we investigate Mixout, a stochastic regularization technique that provides an alternative to Dropout for domain generalization. Rather than deactivating neurons, Mixout mitigates overfitting by probabilistically swapping a subset of fine-tuned weights with their pre-trained counterparts during training, thereby maintaining a balance between adaptation and retention of prior knowledge. Our study reveals that achieving strong performance with Mixout on domain generalization benchmarks requires a notably high masking probability of 0.9 for ViTs and 0.8 for ResNets. While this may seem like a simple adjustment, it yields two key advantages for domain generalization: (1) higher masking rates more strongly penalize deviations from the pre-trained parameters, promoting better generalization to unseen domains; and (2) high-rate masking substantially reduces computational overhead, cutting gradient computation by up to 45% and gradient memory usage by up to 90%. Experiments across five domain generalization benchmarks, PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet, using ResNet and ViT architectures, show that our approach, High-rate Mixout, achieves out-of-domain accuracy comparable to ensemble-based methods while significantly reducing training costs.
- Abstract(参考訳): 強力な事前学習重みから初期化された微調整モデルの組み立ては、分散シフトの下で堅牢性を改善するための一般的な戦略であるが、複数のモデルを訓練し保存する必要があるため、かなりの計算コストが伴う。
ドロップアウトはランダムニューロンの不活性化を通じてアンサンブルをシミュレートすることで軽量な代替手段を提供するが、事前訓練されたモデルに適用すると、一般化に必要な重要な表現を過度に正規化し破壊する傾向がある。
本研究では,ドメイン一般化のためのDropoutに代わる確率正規化手法であるMixoutについて検討する。
ニューロンを不活性化させるのではなく、Mixoutはトレーニング中に微調整された体重のサブセットを事前訓練されたものと交換することで過剰適合を緩和し、事前知識の適応と保持のバランスを維持する。
本研究では,Mixoutによるドメイン一般化ベンチマークの性能向上には,ViTが0.9,ResNetsが0.8という顕著なマスキング確率が必要であることを明らかにした。
これは単純な調整のように思えるが、(1)事前訓練されたパラメータからの偏差を強く減らし、未確認領域へのより良い一般化を促進し、(2)ハイレートマスキングは計算オーバーヘッドを大幅に減らし、勾配計算を最大45%減らし、最大90%の勾配メモリ使用量を減らした。
PACS,VLCS,OfficeHome,TerraIncognita,DomainNetの5つのドメイン一般化ベンチマークに対して,ResNetとViTアーキテクチャを用いて実験を行ったところ,我々のアプローチであるHigh-rate Mixoutは,アンサンブルベースの手法に匹敵する領域外精度を実現し,トレーニングコストを大幅に削減した。
関連論文リスト
- Revisiting Mixout: An Overlooked Path to Robust Finetuning [26.415314255785656]
Mixoutは、間欠的に微調整された重量を事前訓練された基準で置き換える正規化器である。
GMixoutは、固定アンカーをトレーニング中に適応する指数的な移動平均スナップショットに置き換える。
GMixoutはゼロショット性能以上のドメイン内精度を一貫して改善する。
論文 参考訳(メタデータ) (2025-10-08T13:07:50Z) - Boosting Adversarial Training via Fisher-Rao Norm-based Regularization [9.975998980413301]
本稿では,ロバスト性と精度のトレードオフを軽減するため,LOAT(Logit-Oriented Adversarial Training)と呼ばれる新たな正規化フレームワークを提案する。
実験により,提案した正規化戦略により,有意な対向学習アルゴリズムの性能が向上することを示した。
論文 参考訳(メタデータ) (2024-03-26T09:22:37Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。
メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。
2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文 参考訳(メタデータ) (2022-12-05T01:58:45Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。