論文の概要: Adaptive Stochastic Weight Averaging
- arxiv url: http://arxiv.org/abs/2406.19092v1
- Date: Thu, 27 Jun 2024 11:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:27:46.522136
- Title: Adaptive Stochastic Weight Averaging
- Title(参考訳): 適応確率ウェイト平均化
- Authors: Caglar Demir, Arnab Sharma, Axel-Cyrille Ngonga Ngomo,
- Abstract要約: 重み平均化(SWA)技術は、特定のエポック以降のモデルパラメータの実行平均を維持する。
7つのベースラインモデルを持つ11のベンチマークデータセットに対する実験は、ASWAがモデルとデータセット間の統計的により良い一般化をもたらすことを示唆している。
- 参考スコア(独自算出の注目度): 1.90894751866253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensemble models often improve generalization performances in challenging tasks. Yet, traditional techniques based on prediction averaging incur three well-known disadvantages: the computational overhead of training multiple models, increased latency, and memory requirements at test time. To address these issues, the Stochastic Weight Averaging (SWA) technique maintains a running average of model parameters from a specific epoch onward. Despite its potential benefits, maintaining a running average of parameters can hinder generalization, as an underlying running model begins to overfit. Conversely, an inadequately chosen starting point can render SWA more susceptible to underfitting compared to an underlying running model. In this work, we propose Adaptive Stochastic Weight Averaging (ASWA) technique that updates a running average of model parameters, only when generalization performance is improved on the validation dataset. Hence, ASWA can be seen as a combination of SWA with the early stopping technique, where the former accepts all updates on a parameter ensemble model and the latter rejects any update on an underlying running model. We conducted extensive experiments ranging from image classification to multi-hop reasoning over knowledge graphs. Our experiments over 11 benchmark datasets with 7 baseline models suggest that ASWA leads to a statistically better generalization across models and datasets
- Abstract(参考訳): アンサンブルモデルは、しばしば困難なタスクにおける一般化性能を改善する。
しかし、予測平均化に基づく従来の手法では、複数のモデルをトレーニングする際の計算オーバーヘッド、レイテンシの増加、テスト時のメモリ要求という、よく知られた3つの欠点がある。
これらの問題に対処するため、SWA(Stochastic Weight Averaging)技術は特定のエポックからモデルパラメータの実行平均を維持している。
その潜在的な利点にもかかわらず、実行中のパラメータの平均を維持することは、基礎となる実行モデルが過度に適合し始めるため、一般化を妨げる可能性がある。
逆に、不適切に選択されたスタートポイントは、下層の動作モデルと比較して、SWAが過度に適合する可能性を高めることができる。
本研究では,モデルパラメータの実行平均を更新する適応確率重み平均化(ASWA)手法を提案する。
したがって、ASWAはSWAと早期停止技術の組み合わせと見なすことができ、前者はパラメータアンサンブルモデルのすべての更新を受け取り、後者は基盤となる実行モデルの更新を拒絶する。
我々は、画像分類から知識グラフ上のマルチホップ推論まで幅広い実験を行った。
7つのベースラインモデルを持つ11のベンチマークデータセットに対する実験は、ASWAがモデルとデータセット間の統計的により良い一般化をもたらすことを示唆している。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Few-Shot Load Forecasting Under Data Scarcity in Smart Grids: A Meta-Learning Approach [0.18641315013048293]
本稿では,短期負荷予測のためのモデルに依存しないメタ学習アルゴリズムを提案する。
提案手法は,任意の長さの未知の負荷時間列に迅速に適応し,一般化することができる。
提案手法は,実世界の消費者の歴史的負荷消費データのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-06-09T18:59:08Z) - Post-Hoc Reversal: Are We Selecting Models Prematurely? [13.910702424593797]
ポストホック変換を適用した後に性能傾向が逆転するポストホック逆転現象を示す。
予備的な分析は、これらの変換が、誤ラベルされた例の影響を抑えることによって、逆転を引き起こすことを示唆している。
ポストホック選択(post-hoc selection)は、ポストホックメトリクスがモデル開発決定を通知するシンプルな手法である。
論文 参考訳(メタデータ) (2024-04-11T14:58:19Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Universal Test-time Adaptation through Weight Ensembling, Diversity
Weighting, and Prior Correction [3.5139431332194198]
テスト時適応(TTA)はデプロイ後もモデルを更新し続け、現在のテストデータを活用する。
我々は、自己学習ベースの手法が対処しなければならないいくつかの課題を特定し、強調する。
モデルがバイアスを受けるのを防ぐために、データセットとモデルに依存しない確実性と多様性の重み付けを利用する。
論文 参考訳(メタデータ) (2023-06-01T13:16:10Z) - Maintaining Stability and Plasticity for Predictive Churn Reduction [8.971668467496055]
我々は,累積モデル組合せ (AMC) という解を提案する。
AMCは一般的な手法であり、モデルやデータ特性に応じてそれぞれ独自の利点を持ついくつかの事例を提案する。
論文 参考訳(メタデータ) (2023-05-06T20:56:20Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Reinforcement Learning based dynamic weighing of Ensemble Models for
Time Series Forecasting [0.8399688944263843]
データモデリングのために選択されたモデルが(線形/非線形、静的/動的)異なるモデルと独立(最小相関)モデルである場合、予測の精度が向上することが知られている。
アンサンブルモデルを重み付けするために文献で提案された様々なアプローチは、静的な重みセットを使用する。
この問題に対処するため、Reinforcement Learning (RL)アプローチでは、各モデルの重み付けを異なるタイミングで動的に割り当て、更新する。
論文 参考訳(メタデータ) (2020-08-20T10:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。