論文の概要: Transformer as Linear Expansion of Learngene
- arxiv url: http://arxiv.org/abs/2312.05614v2
- Date: Wed, 20 Dec 2023 05:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:51:26.869474
- Title: Transformer as Linear Expansion of Learngene
- Title(参考訳): 学習遺伝子の線形拡張としてのトランス
- Authors: Shiyu Xia, Miaosen Zhang, Xu Yang, Ruiming Chen, Haokun Chen, Xin Geng
- Abstract要約: リニア・エクスパンジョン・オブ・ラーニングジェネレーション(TLEG)は多様な深さのトランスフォーマーを柔軟に生成・初期化する新しい手法である。
ImageNet-1Kの実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと対照的に、同等またはより良いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 38.16612771203953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose expanding the shared Transformer module to produce and initialize
Transformers of varying depths, enabling adaptation to diverse resource
constraints. Drawing an analogy to genetic expansibility, we term such module
as learngene. To identify the expansion mechanism, we delve into the
relationship between the layer's position and its corresponding weight value,
and find that linear function appropriately approximates this relationship.
Building on this insight, we present Transformer as Linear Expansion of
learnGene (TLEG), a novel approach for flexibly producing and initializing
Transformers of diverse depths. Specifically, to learn learngene, we firstly
construct an auxiliary Transformer linearly expanded from learngene, after
which we train it through employing soft distillation. Subsequently, we can
produce and initialize Transformers of varying depths via linearly expanding
the well-trained learngene, thereby supporting diverse downstream scenarios.
Extensive experiments on ImageNet-1K demonstrate that TLEG achieves comparable
or better performance in contrast to many individual models trained from
scratch, while reducing around 2x training cost. When transferring to several
downstream classification datasets, TLEG surpasses existing initialization
methods by a large margin (e.g., +6.87% on iNat 2019 and +7.66% on CIFAR-100).
Under the situation where we need to produce models of varying depths adapting
for different resource constraints, TLEG achieves comparable results while
reducing around 19x parameters stored to initialize these models and around 5x
pre-training costs, in contrast to the pre-training and fine-tuning approach.
When transferring a fixed set of parameters to initialize different models,
TLEG presents better flexibility and competitive performance while reducing
around 2.9x parameters stored to initialize, compared to the pre-training
approach.
- Abstract(参考訳): 本稿では,共有トランスフォーマーモジュールを拡張して様々な深さのトランスフォーマーを生成・初期化する手法を提案する。
遺伝的拡張性に類似して、我々はそのようなモジュールを学習遺伝子と呼ぶ。
膨張機構を明らかにするために, 層の位置とそれに対応する重み値の関係を考察し, 線形関数がこの関係を適切に近似することを示す。
この知見に基づき,多種多様な深さの変圧器を柔軟に生産し初期化するための新しい手法である学習遺伝子(tleg)の線形展開としてトランスフォーマを提案する。
具体的には,学習遺伝子を学習するために,学習遺伝子から線形に拡張した補助トランスを構築し,その後ソフト蒸留を用いて学習する。
その後、訓練された学習遺伝子を線形に拡張し、様々な下流シナリオをサポートすることにより、様々な深さのトランスフォーマーを作成および初期化する。
ImageNet-1Kの大規模な実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと同等またはより良いパフォーマンスを実現し、トレーニングコストは約2倍削減されている。
いくつかの下流分類データセットに転送する場合、TLEGは既存の初期化手法をはるかに上回る(例えば、iNat 2019では+6.87%、CIFAR-100では+7.66%)。
資源制約に応じて異なる深さのモデルを作成する必要がある場合、TLEGは、これらのモデルを初期化するために格納される約19xパラメータと、事前学習と微調整のアプローチとは対照的に、約5倍の事前学習コストを削減しながら、同等の結果を得る。
異なるモデルを初期化するためにパラメータの固定セットを転送する際、TLEGは事前学習アプローチと比較して2.9倍のパラメータを初期化するために格納し、柔軟性と競争性能が向上する。
関連論文リスト
- GIFT: Generative Interpretable Fine-Tuning Transformers [9.532589580200437]
本稿では, GIFT (Generative Interpretable Fine-tuning Transformer) を用いて, 微調整事前学習型トランスモデルを提案する。
我々のGIFTは深層パラメータ残差学習法であり、事前学習されたトランスフォーマーモデルを微調整する際の2つの問題に対処する。
実験では,提案したGIFTをVTABベンチマークときめ細かい視覚分類ベンチマークで検証した。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - Tangent Transformers for Composition, Privacy and Removal [74.86340153047534]
本稿では,一階展開計算により得られる線形変換器の微調整手法であるTangent Attention Fine-Tuning(TAFT)を紹介する。
線形化から生じるヤコビアン・テイラー積は、1つの前方通過で効率的に計算できることを示す。
下流の様々な視覚的分類タスクに適用すると、TAFTで微調整されたTangent Transformerは、元の非線形ネットワークを微調整して可逆的に動作できることが示される。
論文 参考訳(メタデータ) (2023-07-16T18:31:25Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Semantic-visual Guided Transformer for Few-shot Class-incremental
Learning [6.300141694311465]
本研究では,事前学習した機能バックボーンの機能抽出能力を向上させるために,セマンティック・ビジュアル・ガイド付きトランスフォーマー (SV-T) を開発した。
我々のSV-Tは、ベースクラスからのより監督的な情報を最大限に活用し、機能バックボーンのトレーニングロバスト性をさらに強化できます。
論文 参考訳(メタデータ) (2023-03-27T15:06:49Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。