論文の概要: Simulated Overparameterization
- arxiv url: http://arxiv.org/abs/2402.05033v1
- Date: Wed, 7 Feb 2024 17:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:12:30.920413
- Title: Simulated Overparameterization
- Title(参考訳): Simulated Overparameterization
- Authors: Hanna Mazzawi, Pranjal Awasthi, Xavi Gonzalvo, Srikumar Ramalingam
- Abstract要約: SOP(Simulated Overparametrization)と呼ばれる新しいパラダイムを導入する。
SOPは、モデルトレーニングと推論に対するユニークなアプローチを提案し、パラメータのより小さく効率的なサブセットが推論中の実際の計算に使用されるように、非常に多くのパラメータを持つモデルを訓練する。
本稿では,トランスフォーマーモデルを含む主要なアーキテクチャとシームレスに統合する,新しいアーキテクチャ非依存のアルゴリズム"Majority kernels"を提案する。
- 参考スコア(独自算出の注目度): 35.12611686956487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce a novel paradigm called Simulated
Overparametrization (SOP). SOP merges the computational efficiency of compact
models with the advanced learning proficiencies of overparameterized models.
SOP proposes a unique approach to model training and inference, where a model
with a significantly larger number of parameters is trained in such a way that
a smaller, efficient subset of these parameters is used for the actual
computation during inference. Building upon this framework, we present a novel,
architecture agnostic algorithm called "majority kernels", which seamlessly
integrates with predominant architectures, including Transformer models.
Majority kernels enables the simulated training of overparameterized models,
resulting in performance gains across architectures and tasks. Furthermore, our
approach adds minimal overhead to the cost incurred (wall clock time) at
training time. The proposed approach shows strong performance on a wide variety
of datasets and models, even outperforming strong baselines such as
combinatorial optimization methods based on submodular optimization.
- Abstract(参考訳): 本稿ではSOP(Simulated Overparametrization)と呼ばれる新しいパラダイムを紹介する。
SOPは、コンパクトモデルの計算効率と過パラメータモデルの高度な学習能力とを融合する。
SOPは、モデルトレーニングと推論に対するユニークなアプローチを提案し、パラメータのより小さな効率的なサブセットが推論中の実際の計算に使用されるように、非常に多くのパラメータを持つモデルを訓練する。
このフレームワークを基盤として,トランスフォーマーモデルを含む主要なアーキテクチャとシームレスに統合可能な,アーキテクチャに依存しない新しいアルゴリズム"majority kernels"を提案する。
主要カーネルは過度にパラメータ化されたモデルのシミュレーショントレーニングを可能にし、アーキテクチャやタスク間でパフォーマンスが向上する。
さらに,本手法は,トレーニング時に発生したコスト(ウォールクロック時間)に最小限のオーバーヘッドを加える。
提案手法は,多種多様なデータセットやモデルに対して高い性能を示し,サブモジュール最適化に基づく組合せ最適化手法など,強力なベースラインを達成している。
関連論文リスト
- When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Active-Learning-Driven Surrogate Modeling for Efficient Simulation of
Parametric Nonlinear Systems [0.0]
支配方程式がなければ、パラメトリック還元次代理モデルを非侵襲的に構築する必要がある。
我々の研究は、パラメータのスナップショットを効率的に表示するための非侵入的最適性基準を提供する。
カーネルベースの浅層ニューラルネットワークを用いた能動的学習駆動サロゲートモデルを提案する。
論文 参考訳(メタデータ) (2023-06-09T18:01:14Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Consolidated learning -- a domain-specific model-free optimization
strategy with examples for XGBoost and MIMIC-IV [4.370097023410272]
本稿では,統合学習と呼ばれるチューニング問題の新たな定式化を提案する。
このような設定では、単一のタスクをチューニングするよりも、全体の最適化時間に関心があります。
我々は,XGBoostアルゴリズムの実証研究とMIMIC-IV医療データベースから抽出した予測タスクの収集を通じて,このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-01-27T21:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。