論文の概要: MAST: Model-Agnostic Sparsified Training
- arxiv url: http://arxiv.org/abs/2311.16086v1
- Date: Mon, 27 Nov 2023 18:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 13:36:12.812076
- Title: MAST: Model-Agnostic Sparsified Training
- Title(参考訳): MAST: モデルに依存しないスパシファイドトレーニング
- Authors: Yury Demidovich, Grigory Malinovsky, Egor Shulgin, Peter Richt\'arik
- Abstract要約: 我々は、ブラックボックス関数として機械学習モデル損失を最小限に抑える従来の方法から外れた、新しい最適化問題の定式化を導入する。
従来の定式化とは異なり、提案手法は、初期訓練されたモデルとランダムスケッチ演算子を明示的に組み込む。
本稿では,新しい問題定式化に適応したグラディエント・ディキセント法(SGD)のいくつかの変種について述べる。
- 参考スコア(独自算出の注目度): 4.962431253126472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel optimization problem formulation that departs from the
conventional way of minimizing machine learning model loss as a black-box
function. Unlike traditional formulations, the proposed approach explicitly
incorporates an initially pre-trained model and random sketch operators,
allowing for sparsification of both the model and gradient during training. We
establish insightful properties of the proposed objective function and
highlight its connections to the standard formulation. Furthermore, we present
several variants of the Stochastic Gradient Descent (SGD) method adapted to the
new problem formulation, including SGD with general sampling, a distributed
version, and SGD with variance reduction techniques. We achieve tighter
convergence rates and relax assumptions, bridging the gap between theoretical
principles and practical applications, covering several important techniques
such as Dropout and Sparse training. This work presents promising opportunities
to enhance the theoretical understanding of model training through a
sparsification-aware optimization approach.
- Abstract(参考訳): 本稿では,機械学習モデルの損失をブラックボックス関数として最小化する従来の方法から外れた,新しい最適化問題定式化を提案する。
従来の定式化とは異なり、提案されたアプローチは初期訓練されたモデルとランダムなスケッチ演算子を明示的に組み込んでおり、トレーニング中のモデルと勾配の両方をスパース化できる。
提案する目的関数の洞察に富む性質を確立し,標準定式化との関係を強調する。
さらに,新しい問題定式化に適応した確率勾配 Descent (SGD) 法には,一般サンプリングによるSGD,分散バージョン,分散縮小手法によるSGDなど,いくつかの変種が提案されている。
より厳密な収束率を実現し、仮定を緩和し、理論原理と実践的応用のギャップを埋め、ドロップアウトやスパーストレーニングのような重要なテクニックを網羅する。
本研究は、スパーシフィケーション・アウェア最適化アプローチによるモデルトレーニングの理論的理解を深める有望な機会を提供する。
関連論文リスト
- Sparse Bayesian Generative Modeling for Compressive Sensing [8.666730973498625]
この研究は、圧縮センシング(CS)における基本的な線形逆問題に、新しいタイプの正規化生成先行を導入することで対処する。
提案手法は変分推論の概念を用いて理論的に支援し,異なる種類の圧縮可能な信号を用いて実験的に検証する。
論文 参考訳(メタデータ) (2024-11-14T14:37:47Z) - Variational Sequential Optimal Experimental Design using Reinforcement
Learning [0.0]
ベイジアン・フレームワークと情報ゲイン・ユーティリティを用いた有限列実験を最適に設計する新しい手法である変分逐次最適実験設計(vsOED)を導入する。
以上の結果から,従来の逐次設計アルゴリズムと比較して,サンプル効率が大幅に向上し,前方モデルシミュレーションの数が減少したことが示唆された。
論文 参考訳(メタデータ) (2023-06-17T21:47:19Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Self-Supervised Primal-Dual Learning for Constrained Optimization [19.965556179096385]
本稿では,制約付き最適化問題の最適解を直接近似する機械学習モデルの訓練方法を検討する。
プリマル・デュアル・ラーニング(PDL, Primal-Dual Learning)は,事前解決した一連のインスタンスや,学習と推論のための最適化解法を必要としない自己指導型トレーニング手法である。
論文 参考訳(メタデータ) (2022-08-18T20:07:10Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Predictive machine learning for prescriptive applications: a coupled
training-validating approach [77.34726150561087]
規範的応用のための予測機械学習モデルをトレーニングするための新しい手法を提案する。
このアプローチは、標準的なトレーニング検証テストスキームの検証ステップを微調整することに基づいている。
合成データを用いたいくつかの実験は、決定論的モデルと実モデルの両方において処方料コストを削減できる有望な結果を示した。
論文 参考訳(メタデータ) (2021-10-22T15:03:20Z) - Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。
我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文 参考訳(メタデータ) (2021-06-14T15:40:51Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Joint Stochastic Approximation and Its Application to Learning Discrete
Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。
本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。
結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-28T13:50:08Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。