論文の概要: Training Neural Networks from Scratch with Parallel Low-Rank Adapters
- arxiv url: http://arxiv.org/abs/2402.16828v1
- Date: Mon, 26 Feb 2024 18:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:31:26.573907
- Title: Training Neural Networks from Scratch with Parallel Low-Rank Adapters
- Title(参考訳): 並列低ランクアダプタによるスクラッチニューラルネットワークのトレーニング
- Authors: Minyoung Huh, Brian Cheung, Jeremy Bernstein, Phillip Isola, Pulkit
Agrawal
- Abstract要約: 計算ノード間の複数の低ランクヘッドの並列トレーニングを実現するために設計された,新しい双方向最適化アルゴリズムである LoRA-the-Explorer (LTE) を導入する。
我々のアプローチには、様々なビジョンデータセットを用いたビジョントランスフォーマーの広範な実験が含まれており、LTEが標準の事前トレーニングと競合していることが示されている。
- 参考スコア(独自算出の注目度): 50.171622511923474
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The scalability of deep learning models is fundamentally limited by computing
resources, memory, and communication. Although methods like low-rank adaptation
(LoRA) have reduced the cost of model finetuning, its application in model
pre-training remains largely unexplored. This paper explores extending LoRA to
model pre-training, identifying the inherent constraints and limitations of
standard LoRA in this context. We introduce LoRA-the-Explorer (LTE), a novel
bi-level optimization algorithm designed to enable parallel training of
multiple low-rank heads across computing nodes, thereby reducing the need for
frequent synchronization. Our approach includes extensive experimentation on
vision transformers using various vision datasets, demonstrating that LTE is
competitive with standard pre-training.
- Abstract(参考訳): ディープラーニングモデルのスケーラビリティは、コンピューティングリソース、メモリ、通信によって根本的に制限されている。
ローランク適応 (LoRA) のような手法は、モデル微調整のコストを削減しているが、モデル事前訓練におけるその適用は、ほとんど探索されていない。
本稿では、LoRAを事前学習のモデルに拡張し、この文脈における標準LoRA固有の制約と制限を特定する。
演算ノード間の複数の低ランクヘッドの並列トレーニングを実現するために設計された,新しい双方向最適化アルゴリズムであるLoRA-the-Explorer(LTE)を導入する。
我々のアプローチには、様々なビジョンデータセットを用いたビジョントランスフォーマーの広範な実験が含まれており、LTEが標準の事前トレーニングと競合していることが示されている。
関連論文リスト
- OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z) - Performance of Transfer Learning Model vs. Traditional Neural Network in
Low System Resource Environment [0.0]
我々は,テキスト分類とNERモデルのNLP応用のための,軽量トランスファー学習モデルと目的に構築されたニューラルネットワークの性能とコストを比較する。
BERT、XLNet、GPTといった最先端モデルの台頭は、転送遅延のベースモデルとして正確さと利益を高める。
論文 参考訳(メタデータ) (2020-10-20T08:12:56Z) - Real-time Federated Evolutionary Neural Architecture Search [14.099753950531456]
フェデレーション学習(Federated Learning)は、プライバシ保護のための分散機械学習アプローチである。
本稿では、モデル性能を最適化するだけでなく、局所的なペイロードを削減するリアルタイムフェデレーションニューラルネットワーク探索への進化的アプローチを提案する。
このようにして、進化的最適化に必要な計算・通信コストを効果的に削減し、局所モデルの大きな性能変動を回避する。
論文 参考訳(メタデータ) (2020-03-04T17:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。