論文の概要: Diverse Weight Averaging for Out-of-Distribution Generalization
- arxiv url: http://arxiv.org/abs/2205.09739v1
- Date: Thu, 19 May 2022 17:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:02:51.817847
- Title: Diverse Weight Averaging for Out-of-Distribution Generalization
- Title(参考訳): 分布外一般化のための横重平均化
- Authors: Alexandre Rame, Matthieu Kirchmeyer, Thibaud Rahier, Alain
Rakotomamonjy, Patrick Gallinari, Matthieu Cord
- Abstract要約: 単走ではなく、複数の独立したトレーニングランから得られる平均重量について、Diverse Weight Averaging (DiWA)を提案する。
DiWAは、推論オーバーヘッドなしに競合するDomainBedベンチマークのテクニックの状態を継続的に改善します。
- 参考スコア(独自算出の注目度): 100.22155775568761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard neural networks struggle to generalize under distribution shifts.
For out-of-distribution generalization in computer vision, the best current
approach averages the weights along a training run. In this paper, we propose
Diverse Weight Averaging (DiWA) that makes a simple change to this strategy:
DiWA averages the weights obtained from several independent training runs
rather than from a single run. Perhaps surprisingly, averaging these weights
performs well under soft constraints despite the network's nonlinearities. The
main motivation behind DiWA is to increase the functional diversity across
averaged models. Indeed, models obtained from different runs are more diverse
than those collected along a single run thanks to differences in
hyperparameters and training procedures. We motivate the need for diversity by
a new bias-variance-covariance-locality decomposition of the expected error,
exploiting similarities between DiWA and standard functional ensembling.
Moreover, this decomposition highlights that DiWA succeeds when the variance
term dominates, which we show happens when the marginal distribution changes at
test time. Experimentally, DiWA consistently improves the state of the art on
the competitive DomainBed benchmark without inference overhead.
- Abstract(参考訳): 標準ニューラルネットワークは、分散シフトの下で一般化するのに苦労する。
コンピュータビジョンにおける分散の一般化のために、最良の現在のアプローチはトレーニング実行時の重みを平均する。
本稿では,この戦略をシンプルに変化させる多様重量平均化(diwa)を提案する。
おそらく驚くべきことに、ネットワークの非線形性にもかかわらず、平均的な重み付けはソフトな制約の下でうまく機能する。
DiWAの背後にある主な動機は、平均モデル間の機能的多様性を高めることである。
実際、異なるランから得られたモデルは、ハイパーパラメータとトレーニング手順の違いにより、単一のランで収集したモデルよりも多様である。
予測誤差のバイアス-分散-共分散-局所分解により多様性の必要性を動機付け、DiWAと標準機能アンサンブルの類似性を利用する。
さらにこの分解は、分散項が支配するときにdiwaが成功し、テスト時に限界分布が変化するときに起こることを強調する。
実験的に、DiWAは推論オーバーヘッドなしに競合するDomainBedベンチマークのテクニックの状態を一貫して改善します。
関連論文リスト
- DATTA: Towards Diversity Adaptive Test-Time Adaptation in Dynamic Wild World [6.816521410643928]
本稿では,QoE(Quality of Experience)の改善を目的としたDATTA(Diversity Adaptive Test-Time Adaptation)という手法を提案する。
バッチの多様性を評価するダイバーシティ識別(DD)、DDの洞察に基づく正規化手法を調整するためのダイバーシティ適応バッチ正規化(DABN)、モデルを選択的に微調整するダイバーシティ適応細調整(DAFT)の3つの主要なコンポーネントが特徴である。
実験結果から,本手法の精度は最先端手法と比較して最大21%向上することがわかった。
論文 参考訳(メタデータ) (2024-08-15T09:50:11Z) - WASH: Train your Ensemble with Communication-Efficient Weight Shuffling, then Average [21.029085451757368]
ウェイト平均化手法は、アンサンブルの一般化と単一モデルの推論速度のバランスをとることを目的としている。
WASHは,最新の画像分類精度を実現するために,平均化のためのモデルアンサンブルを学習するための新しい分散手法である。
論文 参考訳(メタデータ) (2024-05-27T09:02:57Z) - Harnessing Hierarchical Label Distribution Variations in Test Agnostic Long-tail Recognition [114.96385572118042]
テストラベルの分布の変動は階層的にグローバルレベルとローカルレベルに分解できると主張している。
ラベル分布の異なるDirichletメタ分布に専門家を割り当てる新しいMoE戦略である$mathsfDirMixE$を提案する。
本稿では,分散に基づく正規化による一般化の促進による目的性を示す。
論文 参考訳(メタデータ) (2024-05-13T14:24:56Z) - IMWA: Iterative Model Weight Averaging Benefits Class-Imbalanced Learning Tasks [52.61590955479261]
反復モデルウェイト平均化(IMWA)は、クラス不均衡学習タスクのための手法である。
バニラMWAと比較して、IMWAは同じ計算コストで高い性能向上を実現している。
論文 参考訳(メタデータ) (2024-04-25T04:37:35Z) - Hierarchical Weight Averaging for Deep Neural Networks [39.45493779043969]
勾配降下(SGD)様アルゴリズムはディープニューラルネットワーク(DNN)の訓練に成功している
複数のモデルの重みを平均するウェイト平均化(WA)は、近年、文献に多くの注目を集めている。
本研究では、まず、オンラインおよびオフラインWAを階層重み平均化(HWA)と呼ばれる一般的なトレーニングフレームワークに組み込もうとする。
論文 参考訳(メタデータ) (2023-04-23T02:58:03Z) - Regularising for invariance to data augmentation improves supervised
learning [82.85692486314949]
入力毎に複数の拡張を使用すれば、一般化が向上することを示す。
本稿では,個々のモデル予測のレベルにおいて,この不変性を助長する明示的な正規化手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T11:25:45Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。