論文の概要: Landscape-Aware Growing: The Power of a Little LAG
- arxiv url: http://arxiv.org/abs/2406.02469v1
- Date: Tue, 4 Jun 2024 16:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:20:58.469694
- Title: Landscape-Aware Growing: The Power of a Little LAG
- Title(参考訳): ランドスケープを意識して成長する: 小さなRAGの力
- Authors: Stefani Karp, Nikunj Saunshi, Sobhan Miryoosefi, Sashank J. Reddi, Sanjiv Kumar,
- Abstract要約: 成長戦略のプールから最適な成長戦略をどのように選択するかという課題について検討する。
ランドスケープ・アウェア・グロース(LAG)と呼ぶ早期学習力学に基づく代替視点を提案する。
- 参考スコア(独自算出の注目度): 49.897766925371485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been increasing interest in efficient pretraining paradigms for training Transformer-based models. Several recent approaches use smaller models to initialize larger models in order to save computation (e.g., stacking and fusion). In this work, we study the fundamental question of how to select the best growing strategy from a given pool of growing strategies. Prior works have extensively focused on loss- and/or function-preserving behavior at initialization or simply performance at the end of training. Instead, we identify that behavior at initialization can be misleading as a predictor of final performance and present an alternative perspective based on early training dynamics, which we call "landscape-aware growing (LAG)". We perform extensive analysis of correlation of the final performance with performance in the initial steps of training and find early and more accurate predictions of the optimal growing strategy (i.e., with only a small "lag" after initialization). This perspective also motivates an adaptive strategy for gradual stacking.
- Abstract(参考訳): 近年,Transformerベースのモデルのトレーニングに有効な事前学習パラダイムへの関心が高まっている。
最近のいくつかのアプローチでは、計算を節約するためにより小さなモデルを使用して、より大きなモデルを初期化している(例えば、スタックや融合)。
本研究では,成長戦略のプールから最適な成長戦略をどのように選択するかという根本的な問題について考察する。
以前の作業は、初期化時の損失および/または機能保存行動、あるいはトレーニングの終了時の単にパフォーマンスに重点を置いてきた。
その代わり、初期化時の行動は最終性能の予測因子として誤解を招く可能性があり、「ランドスケープ・アウェア・グロース(LAG)」(ランドスケープ・アウェア・グロース)と呼ばれる早期トレーニングのダイナミクスに基づく別の視点を示す。
トレーニングの初期段階における最終性能と性能の相関関係を広範囲に解析し、最適な成長戦略(初期化後に小さな「ラグ」しか持たない)の早期かつより正確な予測を求める。
この視点はまた、段階的な積み重ねに対する適応的な戦略を動機付けている。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - An Analysis of Initial Training Strategies for Exemplar-Free
Class-Incremental Learning [36.619804184427245]
CIL(Class-Incremental Learning)は、データストリームから分類モデルを構築することを目的としている。
破滅的な忘れ物のため、過去のクラスの例を保存できない場合、CILは特に困難である。
大量のデータに対する自己管理的な方法で事前訓練されたモデルの使用は、最近勢いを増している。
論文 参考訳(メタデータ) (2023-08-22T14:06:40Z) - Unsupervised Learning for Combinatorial Optimization Needs Meta-Learning [14.86600327306136]
最適化のための教師なし学習(CO)の一般的なフレームワークは、出力がCOの目的を直接最適化することで問題解決をもたらすニューラルネットワーク(NN)を訓練することである。
本研究では,COにおける教師なし学習の新たな目的について提案する。この学習の目的は,直接的な解決策を与えるのではなく,将来の問題インスタンスの優れた初期化を探すことである。
微調整前のモデルが与える初期解だけでも, 様々な評価条件下では, ベースラインを著しく上回る結果が得られます。
論文 参考訳(メタデータ) (2023-01-08T22:14:59Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Prospect Pruning: Finding Trainable Weights at Initialization using
Meta-Gradients [36.078414964088196]
初期化時にニューラルネットワークをプルーニングすることで、元のネットワークの精度を保ったスパースモデルを見つけることができる。
現在の方法は、この最適化を可能にするには不十分であり、モデル性能の大幅な低下につながります。
提案するProspect Pruning(ProsPr)は,最適化の最初の数ステップを通じてメタグラディエントを用いて,どの重み付けを行うかを決定する。
本手法は,従来のプルーニング・アット・初期化手法と比較して,データの少ない1ショットで,様々な視覚分類タスクにおける最先端のプルーニング性能を実現する。
論文 参考訳(メタデータ) (2022-02-16T15:18:55Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。