論文の概要: SeWA: Selective Weight Average via Probabilistic Masking
- arxiv url: http://arxiv.org/abs/2502.10119v1
- Date: Fri, 14 Feb 2025 12:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:00.386270
- Title: SeWA: Selective Weight Average via Probabilistic Masking
- Title(参考訳): SeWA:確率的マスキングによる平均体重選択率
- Authors: Peng Wang, Shengchao Hu, Zerui Tao, Guoxia Wang, Dianhai Yu, Li Shen, Quan Zheng, Dacheng Tao,
- Abstract要約: より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
- 参考スコア(独自算出の注目度): 51.015724517293236
- License:
- Abstract: Weight averaging has become a standard technique for enhancing model performance. However, methods such as Stochastic Weight Averaging (SWA) and Latest Weight Averaging (LAWA) often require manually designed procedures to sample from the training trajectory, and the results depend heavily on hyperparameter tuning. To minimize human effort, this paper proposes a simple yet efficient algorithm called Selective Weight Averaging (SeWA), which adaptively selects checkpoints during the final stages of training for averaging. Based on SeWA, we show that only a few points are needed to achieve better generalization and faster convergence. Theoretically, solving the discrete subset selection problem is inherently challenging. To address this, we transform it into a continuous probabilistic optimization framework and employ the Gumbel-Softmax estimator to learn the non-differentiable mask for each checkpoint. Further, we theoretically derive the SeWA's stability-based generalization bounds, which are sharper than that of SGD under both convex and non-convex assumptions. Finally, solid extended experiments in various domains, including behavior cloning, image classification, and text classification, further validate the effectiveness of our approach.
- Abstract(参考訳): 重量平均化はモデル性能を向上させるための標準技術となっている。
しかし、Stochastic Weight Averaging (SWA) や Update Weight Averaging (LAWA) のような手法では、トレーニング軌跡からサンプルを採取するために手作業で設計される手順を必要とすることが多く、その結果はハイパーパラメータチューニングに大きく依存する。
人的労力を最小限に抑えるために,Selective Weight Averaging (SeWA) と呼ばれる単純なアルゴリズムを提案する。
SeWAに基づいて、より優れた一般化とより高速な収束を実現するために、いくつかのポイントしか必要としないことを示す。
理論的には、離散部分集合選択問題の解法は本質的に困難である。
そこで我々は,これを連続確率最適化フレームワークに変換し,Gumbel-Softmax推定器を用いて,チェックポイント毎に非微分マスクを学習する。
さらに、理論上は、凸と非凸の両方の仮定の下で、SGDよりもシャープなSeWAの安定性に基づく一般化境界を導出する。
最後に, 行動クローニング, 画像分類, テキスト分類など, 様々な領域において, しっかりとした拡張実験を行い, 提案手法の有効性を検証した。
関連論文リスト
- Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Boosting Fair Classifier Generalization through Adaptive Priority Reweighing [59.801444556074394]
より優れた一般化性を持つ性能向上フェアアルゴリズムが必要である。
本稿では,トレーニングデータとテストデータ間の分散シフトがモデル一般化性に与える影響を解消する適応的リライジング手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T13:04:55Z) - Nonconvex Stochastic Bregman Proximal Gradient Method with Application to Deep Learning [9.202586157819693]
非合成対象函数のロバスト性を最小化する二次法は、典型的には微分可能部分のリプシッツ滑らか性に依存する。
本稿では適応性のみを考慮したBregman(SBPG)手法のファミリーを提案する。
MSBPGは運動量に基づく変種であり、ミニバッチサイズ要求を緩和することで収束感度を高める。
論文 参考訳(メタデータ) (2023-06-26T08:54:46Z) - Debiasing Conditional Stochastic Optimization [15.901623717313493]
本稿では,ポートフォリオ選択や強化学習,堅牢な学習など,さまざまな応用をカバーする条件因果最適化(CSO)問題について検討する。
有限変量変量CSO問題に対する新しいアルゴリズムを開発し、既存の結果を大幅に改善する。
我々は,本手法が他の最適化問題と同様の課題に対処するための有用なツールとなる可能性があると考えている。
論文 参考訳(メタデータ) (2023-04-20T19:19:55Z) - Adaptive Experimentation at Scale: A Computational Framework for
Flexible Batches [7.390918770007728]
結果がバッチで測定される少数の実測を含む実例によって動機付けられ,適応駆動型実験フレームワークを開発した。
我々の主な観察は、統計的推論において普遍的な正規近似は適応アルゴリズムの設計を導くことができることである。
論文 参考訳(メタデータ) (2023-03-21T04:17:03Z) - Adaptive Selection of the Optimal Strategy to Improve Precision and
Power in Randomized Trials [2.048226951354646]
精度を最大化するために、どの変数とどの形式で調整アプローチを選択するかを示す。
このアプローチは、(nullの下で)Type-Iエラー制御を維持し、精度を大幅に向上させる。
実データに適用すると、全体およびサブグループ内で有意義な効率改善が見られる。
論文 参考訳(メタデータ) (2022-10-31T16:25:38Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。