論文の概要: Simulated Overparameterization
- arxiv url: http://arxiv.org/abs/2402.05033v1
- Date: Wed, 7 Feb 2024 17:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:12:30.920413
- Title: Simulated Overparameterization
- Title(参考訳): Simulated Overparameterization
- Authors: Hanna Mazzawi, Pranjal Awasthi, Xavi Gonzalvo, Srikumar Ramalingam
- Abstract要約: SOP(Simulated Overparametrization)と呼ばれる新しいパラダイムを導入する。
SOPは、モデルトレーニングと推論に対するユニークなアプローチを提案し、パラメータのより小さく効率的なサブセットが推論中の実際の計算に使用されるように、非常に多くのパラメータを持つモデルを訓練する。
本稿では,トランスフォーマーモデルを含む主要なアーキテクチャとシームレスに統合する,新しいアーキテクチャ非依存のアルゴリズム"Majority kernels"を提案する。
- 参考スコア(独自算出の注目度): 35.12611686956487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce a novel paradigm called Simulated
Overparametrization (SOP). SOP merges the computational efficiency of compact
models with the advanced learning proficiencies of overparameterized models.
SOP proposes a unique approach to model training and inference, where a model
with a significantly larger number of parameters is trained in such a way that
a smaller, efficient subset of these parameters is used for the actual
computation during inference. Building upon this framework, we present a novel,
architecture agnostic algorithm called "majority kernels", which seamlessly
integrates with predominant architectures, including Transformer models.
Majority kernels enables the simulated training of overparameterized models,
resulting in performance gains across architectures and tasks. Furthermore, our
approach adds minimal overhead to the cost incurred (wall clock time) at
training time. The proposed approach shows strong performance on a wide variety
of datasets and models, even outperforming strong baselines such as
combinatorial optimization methods based on submodular optimization.
- Abstract(参考訳): 本稿ではSOP(Simulated Overparametrization)と呼ばれる新しいパラダイムを紹介する。
SOPは、コンパクトモデルの計算効率と過パラメータモデルの高度な学習能力とを融合する。
SOPは、モデルトレーニングと推論に対するユニークなアプローチを提案し、パラメータのより小さな効率的なサブセットが推論中の実際の計算に使用されるように、非常に多くのパラメータを持つモデルを訓練する。
このフレームワークを基盤として,トランスフォーマーモデルを含む主要なアーキテクチャとシームレスに統合可能な,アーキテクチャに依存しない新しいアルゴリズム"majority kernels"を提案する。
主要カーネルは過度にパラメータ化されたモデルのシミュレーショントレーニングを可能にし、アーキテクチャやタスク間でパフォーマンスが向上する。
さらに,本手法は,トレーニング時に発生したコスト(ウォールクロック時間)に最小限のオーバーヘッドを加える。
提案手法は,多種多様なデータセットやモデルに対して高い性能を示し,サブモジュール最適化に基づく組合せ最適化手法など,強力なベースラインを達成している。
関連論文リスト
- HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [12.146530928616386]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。
この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。
事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
論文 参考訳(メタデータ) (2023-12-11T19:10:55Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。