論文の概要: Transformer as Linear Expansion of Learngene
- arxiv url: http://arxiv.org/abs/2312.05614v1
- Date: Sat, 9 Dec 2023 17:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:48:23.486631
- Title: Transformer as Linear Expansion of Learngene
- Title(参考訳): 学習遺伝子の線形拡張としてのトランス
- Authors: Shiyu Xia, Miaosen Zhang, Xu Yang, Ruiming Chen, Haokun Chen, Xin Geng
- Abstract要約: リニア・エクスパンジョン・オブ・ラーニングジェネレーション(TLEG)は多様な深さのトランスフォーマーを柔軟に生成・初期化する新しい手法である。
ImageNet-1K分類の実験では、TLEGはスクラッチから訓練された多くの個々のモデルと比較して、同等またはより良い性能を達成している。
- 参考スコア(独自算出の注目度): 38.16612771203953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose expanding the shared Transformer module to produce and initialize
Transformers with diverse depths, enabling adaptation to dynamic resource
constraints. Drawing an analogy to genetic expansibility, we term such module
as learngene. To identify the expansion mechanism, we delve into the
relationship between the layer position and its corresponding weight value, and
find that linear function appropriately approximates this relationship.
Building on this insight, we present Transformer as Linear Expansion of
learnGene (TLEG), a novel approach for flexibly producing and initializing
Transformers of diverse depths. Specifically, to learn learngene, we firstly
construct an auxiliary Transformer linearly expanded from learngene, after
which we train it through employing soft distillation. Subsequently, we can
produce and initialize Transformers of varying depths via linearly expanding
the well-trained learngene, thereby supporting diverse downstream scenarios.
Extensive experiments on ImageNet-1K classification demonstrate that TLEG
achieves comparable or better performance compared to many individual models
trained from scratch, while reducing around 2$\times$ training cost. When
transferring one model to several downstream classification datasets, TLEG
surpasses existing initialization methods by a large margin (e.g., +6.87% on
iNat 2019 and +7.66% on CIFAR-100). Under the situation where we need to
produce models of different scales adapting for different resource constraints,
TLEG achieves comparable results while reducing around 19$\times$ parameters
stored to initialize these models and around 5$\times$ training costs, in
contrast to the pre-training and fine-tuning approach.
- Abstract(参考訳): 本稿では,共有トランスフォーマーモジュールを拡張して様々な深さでトランスフォーマーを生成し,動的リソース制約への適応を可能にすることを提案する。
遺伝的拡張性に類似して、我々はそのようなモジュールを学習遺伝子と呼ぶ。
拡張機構を同定するために, 層位置とその対応する重み値の関係を探索し, 線形関数がこの関係を適切に近似することを示した。
この知見に基づき,多種多様な深さの変圧器を柔軟に生産し初期化するための新しい手法である学習遺伝子(tleg)の線形展開としてトランスフォーマを提案する。
具体的には,学習遺伝子を学習するために,学習遺伝子から線形に拡張した補助トランスを構築し,その後ソフト蒸留を用いて学習する。
その後、訓練された学習遺伝子を線形に拡張し、様々な下流シナリオをサポートすることにより、様々な深さのトランスフォーマーを作成および初期化する。
ImageNet-1K分類に関する大規模な実験では、TLEGは、スクラッチからトレーニングされた多くの個別モデルと比較して、同等またはより良いパフォーマンスを達成し、トレーニングコストは約2$\times$である。
1つのモデルを複数の下流分類データセットに転送する場合、TLEGは既存の初期化手法を大きなマージンで上回る(例えば、iNat 2019では+6.87%、CIFAR-100では+7.66%)。
異なるリソース制約に適応した異なるスケールのモデルを作成する必要がある状況において、TLEGは、これらのモデルを初期化するための19$\times$パラメータと5$\times$トレーニングコストを削減しながら、同等の結果を得る。
関連論文リスト
- Exploring Learngene via Stage-wise Weight Sharing for Initializing Variable-sized Models [40.21274215353816]
本稿では,大規模な学習モデルから学習遺伝子と呼ばれる1つのコンパクトな部分を学習するLearngeneフレームワークを紹介する。
次に、対応するステージ情報を含むこれらの学習遺伝子層を拡張して、可変深さのモデルを初期化する。
ImageNet-1Kの実験では、SWSはスクラッチからトレーニングされた多くのモデルと比較して一貫したパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-04-25T06:04:34Z) - Tangent Transformers for Composition, Privacy and Removal [74.86340153047534]
本稿では,一階展開計算により得られる線形変換器の微調整手法であるTangent Attention Fine-Tuning(TAFT)を紹介する。
線形化から生じるヤコビアン・テイラー積は、1つの前方通過で効率的に計算できることを示す。
下流の様々な視覚的分類タスクに適用すると、TAFTで微調整されたTangent Transformerは、元の非線形ネットワークを微調整して可逆的に動作できることが示される。
論文 参考訳(メタデータ) (2023-07-16T18:31:25Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Semantic-visual Guided Transformer for Few-shot Class-incremental
Learning [6.300141694311465]
本研究では,事前学習した機能バックボーンの機能抽出能力を向上させるために,セマンティック・ビジュアル・ガイド付きトランスフォーマー (SV-T) を開発した。
我々のSV-Tは、ベースクラスからのより監督的な情報を最大限に活用し、機能バックボーンのトレーニングロバスト性をさらに強化できます。
論文 参考訳(メタデータ) (2023-03-27T15:06:49Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。