論文の概要: Transformer as Linear Expansion of Learngene
- arxiv url: http://arxiv.org/abs/2312.05614v1
- Date: Sat, 9 Dec 2023 17:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:48:23.486631
- Title: Transformer as Linear Expansion of Learngene
- Title(参考訳): 学習遺伝子の線形拡張としてのトランス
- Authors: Shiyu Xia, Miaosen Zhang, Xu Yang, Ruiming Chen, Haokun Chen, Xin Geng
- Abstract要約: リニア・エクスパンジョン・オブ・ラーニングジェネレーション(TLEG)は多様な深さのトランスフォーマーを柔軟に生成・初期化する新しい手法である。
ImageNet-1K分類の実験では、TLEGはスクラッチから訓練された多くの個々のモデルと比較して、同等またはより良い性能を達成している。
- 参考スコア(独自算出の注目度): 38.16612771203953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose expanding the shared Transformer module to produce and initialize
Transformers with diverse depths, enabling adaptation to dynamic resource
constraints. Drawing an analogy to genetic expansibility, we term such module
as learngene. To identify the expansion mechanism, we delve into the
relationship between the layer position and its corresponding weight value, and
find that linear function appropriately approximates this relationship.
Building on this insight, we present Transformer as Linear Expansion of
learnGene (TLEG), a novel approach for flexibly producing and initializing
Transformers of diverse depths. Specifically, to learn learngene, we firstly
construct an auxiliary Transformer linearly expanded from learngene, after
which we train it through employing soft distillation. Subsequently, we can
produce and initialize Transformers of varying depths via linearly expanding
the well-trained learngene, thereby supporting diverse downstream scenarios.
Extensive experiments on ImageNet-1K classification demonstrate that TLEG
achieves comparable or better performance compared to many individual models
trained from scratch, while reducing around 2$\times$ training cost. When
transferring one model to several downstream classification datasets, TLEG
surpasses existing initialization methods by a large margin (e.g., +6.87% on
iNat 2019 and +7.66% on CIFAR-100). Under the situation where we need to
produce models of different scales adapting for different resource constraints,
TLEG achieves comparable results while reducing around 19$\times$ parameters
stored to initialize these models and around 5$\times$ training costs, in
contrast to the pre-training and fine-tuning approach.
- Abstract(参考訳): 本稿では,共有トランスフォーマーモジュールを拡張して様々な深さでトランスフォーマーを生成し,動的リソース制約への適応を可能にすることを提案する。
遺伝的拡張性に類似して、我々はそのようなモジュールを学習遺伝子と呼ぶ。
拡張機構を同定するために, 層位置とその対応する重み値の関係を探索し, 線形関数がこの関係を適切に近似することを示した。
この知見に基づき,多種多様な深さの変圧器を柔軟に生産し初期化するための新しい手法である学習遺伝子(tleg)の線形展開としてトランスフォーマを提案する。
具体的には,学習遺伝子を学習するために,学習遺伝子から線形に拡張した補助トランスを構築し,その後ソフト蒸留を用いて学習する。
その後、訓練された学習遺伝子を線形に拡張し、様々な下流シナリオをサポートすることにより、様々な深さのトランスフォーマーを作成および初期化する。
ImageNet-1K分類に関する大規模な実験では、TLEGは、スクラッチからトレーニングされた多くの個別モデルと比較して、同等またはより良いパフォーマンスを達成し、トレーニングコストは約2$\times$である。
1つのモデルを複数の下流分類データセットに転送する場合、TLEGは既存の初期化手法を大きなマージンで上回る(例えば、iNat 2019では+6.87%、CIFAR-100では+7.66%)。
異なるリソース制約に適応した異なるスケールのモデルを作成する必要がある状況において、TLEGは、これらのモデルを初期化するための19$\times$パラメータと5$\times$トレーニングコストを削減しながら、同等の結果を得る。
関連論文リスト
- Learning and Transferring Sparse Contextual Bigrams with Linear Transformers [47.37256334633102]
スパース・コン・ビグラム(Sparse Con Bigram)モデルを導入し、次のトークンの生成は、最後のトークンによって決定される以前の位置のスパースセットに依存する。
勾配アルゴリズムを用いた一層線形変圧器を用いて,SCB学習のトレーニングダイナミクスとサンプル複雑性を解析した。
下流と事前学習タスクの間に非自明な相関関係があることを証明し、事前訓練されたモデルから微調整することで、初期サンプル集約段階を回避できることを証明した。
論文 参考訳(メタデータ) (2024-10-30T20:29:10Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。
線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文 参考訳(メタデータ) (2024-05-10T17:59:08Z) - Tangent Transformers for Composition, Privacy and Removal [58.280295030852194]
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
論文 参考訳(メタデータ) (2023-07-16T18:31:25Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Semantic-visual Guided Transformer for Few-shot Class-incremental
Learning [6.300141694311465]
本研究では,事前学習した機能バックボーンの機能抽出能力を向上させるために,セマンティック・ビジュアル・ガイド付きトランスフォーマー (SV-T) を開発した。
我々のSV-Tは、ベースクラスからのより監督的な情報を最大限に活用し、機能バックボーンのトレーニングロバスト性をさらに強化できます。
論文 参考訳(メタデータ) (2023-03-27T15:06:49Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。