論文の概要: QuadraNet V2: Efficient and Sustainable Training of High-Order Neural Networks with Quadratic Adaptation
- arxiv url: http://arxiv.org/abs/2405.03192v1
- Date: Mon, 6 May 2024 06:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:45:09.767607
- Title: QuadraNet V2: Efficient and Sustainable Training of High-Order Neural Networks with Quadratic Adaptation
- Title(参考訳): QuadraNet V2: 二次適応型高次ニューラルネットワークの効率的かつ持続的な訓練
- Authors: Chenhui Xu, Xinyao Wang, Fuxun Yu, JInjun Xiong, Xiang Chen,
- Abstract要約: 本稿では,2次ニューラルネットワークを活用して高次学習モデルを効率的に構築する新しいフレームワークであるQuadraNet V2を紹介する。
本手法は、標準ニューラルネットワークを用いて二次ニューロンの一次項を初期化し、二次項を用いて非線形性やシフトの学習を適応的に強化する。
既存のトレーニング済み重量を利用することで、QuadraNet V2は、スクラッチからのトレーニングと比較して、トレーニングに必要なGPU時間を90%から98.4%削減し、効率と有効性を実証する。
- 参考スコア(独自算出の注目度): 25.003305443114296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning is evolving towards high-order models that necessitate pre-training on extensive datasets, a process associated with significant overheads. Traditional models, despite having pre-trained weights, are becoming obsolete due to architectural differences that obstruct the effective transfer and initialization of these weights. To address these challenges, we introduce a novel framework, QuadraNet V2, which leverages quadratic neural networks to create efficient and sustainable high-order learning models. Our method initializes the primary term of the quadratic neuron using a standard neural network, while the quadratic term is employed to adaptively enhance the learning of data non-linearity or shifts. This integration of pre-trained primary terms with quadratic terms, which possess advanced modeling capabilities, significantly augments the information characterization capacity of the high-order network. By utilizing existing pre-trained weights, QuadraNet V2 reduces the required GPU hours for training by 90\% to 98.4\% compared to training from scratch, demonstrating both efficiency and effectiveness.
- Abstract(参考訳): 機械学習は、大規模なデータセットで事前トレーニングを必要とする高次のモデルへと進化している。
従来のモデルは、事前訓練された重量を持つにもかかわらず、これらの重量の効果的な移動と初期化を妨げるアーキテクチャ上の違いのために、時代遅れになっている。
これらの課題に対処するために,2次ニューラルネットワークを活用して効率的で持続可能な高次学習モデルを構築する,新しいフレームワークであるQuadraNet V2を導入する。
本手法は、標準ニューラルネットワークを用いて二次ニューロンの一次項を初期化し、二次項を用いて非線形性やシフトの学習を適応的に強化する。
事前訓練された一次項と高度なモデリング能力を持つ二次項の統合により、高次ネットワークの情報特徴づけ能力が著しく向上する。
既存のトレーニング済み重量を利用することで、QuadraNet V2は、スクラッチからのトレーニングと比較して、トレーニングに必要なGPU時間を90\%から98.4\%削減し、効率と有効性を実証する。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - An exactly solvable model for emergence and scaling laws in the multitask sparse parity problem [2.598133279943607]
本稿では,新たな能力(スキル)を基礎関数として表現するフレームワークを提案する。
新たなスキルの出現と、トレーニング時間、データサイズ、モデルサイズ、最適計算による損失の法則のスケーリングに関する分析式を見つける。
私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。
論文 参考訳(メタデータ) (2024-04-26T17:45:32Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Fast-NTK: Parameter-Efficient Unlearning for Large-Scale Models [17.34908967455907]
マシン・アンラーニング'は、スクラッチから再トレーニングすることなく、不要なデータの選択的削除を提案する。
Fast-NTKはNTKベースの新しいアンラーニングアルゴリズムであり、計算複雑性を大幅に削減する。
論文 参考訳(メタデータ) (2023-12-22T18:55:45Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - On Expressivity and Trainability of Quadratic Networks [12.878230964137014]
二次人工ニューロンは 深層学習モデルにおいて 重要な役割を担います
従来のネットワークと従来のネットワークのどちらよりも優れた2次ネットワークの表現性は、完全には解明されていないことを示す。
本稿では,2次ネットワークのトレーニングプロセスを安定化させるために,ReLinearと呼ばれる効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-10-12T15:33:32Z) - Performance of Transfer Learning Model vs. Traditional Neural Network in
Low System Resource Environment [0.0]
我々は,テキスト分類とNERモデルのNLP応用のための,軽量トランスファー学習モデルと目的に構築されたニューラルネットワークの性能とコストを比較する。
BERT、XLNet、GPTといった最先端モデルの台頭は、転送遅延のベースモデルとして正確さと利益を高める。
論文 参考訳(メタデータ) (2020-10-20T08:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。