Fugu-MT 論文翻訳(概要): Transformer as Linear Expansion of Learngene

論文の概要: Transformer as Linear Expansion of Learngene

arxiv url: http://arxiv.org/abs/2312.05614v2
Date: Wed, 20 Dec 2023 05:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 18:51:26.869474
Title: Transformer as Linear Expansion of Learngene
Title（参考訳）: 学習遺伝子の線形拡張としてのトランス
Authors: Shiyu Xia, Miaosen Zhang, Xu Yang, Ruiming Chen, Haokun Chen, Xin Geng
Abstract要約: リニア・エクスパンジョン・オブ・ラーニングジェネレーション(TLEG)は多様な深さのトランスフォーマーを柔軟に生成・初期化する新しい手法である。 ImageNet-1Kの実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと対照的に、同等またはより良いパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 38.16612771203953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose expanding the shared Transformer module to produce and initialize Transformers of varying depths, enabling adaptation to diverse resource constraints. Drawing an analogy to genetic expansibility, we term such module as learngene. To identify the expansion mechanism, we delve into the relationship between the layer's position and its corresponding weight value, and find that linear function appropriately approximates this relationship. Building on this insight, we present Transformer as Linear Expansion of learnGene (TLEG), a novel approach for flexibly producing and initializing Transformers of diverse depths. Specifically, to learn learngene, we firstly construct an auxiliary Transformer linearly expanded from learngene, after which we train it through employing soft distillation. Subsequently, we can produce and initialize Transformers of varying depths via linearly expanding the well-trained learngene, thereby supporting diverse downstream scenarios. Extensive experiments on ImageNet-1K demonstrate that TLEG achieves comparable or better performance in contrast to many individual models trained from scratch, while reducing around 2x training cost. When transferring to several downstream classification datasets, TLEG surpasses existing initialization methods by a large margin (e.g., +6.87% on iNat 2019 and +7.66% on CIFAR-100). Under the situation where we need to produce models of varying depths adapting for different resource constraints, TLEG achieves comparable results while reducing around 19x parameters stored to initialize these models and around 5x pre-training costs, in contrast to the pre-training and fine-tuning approach. When transferring a fixed set of parameters to initialize different models, TLEG presents better flexibility and competitive performance while reducing around 2.9x parameters stored to initialize, compared to the pre-training approach.
Abstract（参考訳）: 本稿では,共有トランスフォーマーモジュールを拡張して様々な深さのトランスフォーマーを生成・初期化する手法を提案する。遺伝的拡張性に類似して、我々はそのようなモジュールを学習遺伝子と呼ぶ。膨張機構を明らかにするために, 層の位置とそれに対応する重み値の関係を考察し, 線形関数がこの関係を適切に近似することを示す。この知見に基づき,多種多様な深さの変圧器を柔軟に生産し初期化するための新しい手法である学習遺伝子(tleg)の線形展開としてトランスフォーマを提案する。具体的には,学習遺伝子を学習するために,学習遺伝子から線形に拡張した補助トランスを構築し,その後ソフト蒸留を用いて学習する。その後、訓練された学習遺伝子を線形に拡張し、様々な下流シナリオをサポートすることにより、様々な深さのトランスフォーマーを作成および初期化する。 ImageNet-1Kの大規模な実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと同等またはより良いパフォーマンスを実現し、トレーニングコストは約2倍削減されている。いくつかの下流分類データセットに転送する場合、TLEGは既存の初期化手法をはるかに上回る(例えば、iNat 2019では+6.87%、CIFAR-100では+7.66%)。資源制約に応じて異なる深さのモデルを作成する必要がある場合、TLEGは、これらのモデルを初期化するために格納される約19xパラメータと、事前学習と微調整のアプローチとは対照的に、約5倍の事前学習コストを削減しながら、同等の結果を得る。異なるモデルを初期化するためにパラメータの固定セットを転送する際、TLEGは事前学習アプローチと比較して2.9倍のパラメータを初期化するために格納し、柔軟性と競争性能が向上する。

関連論文リスト

Learning and Transferring Sparse Contextual Bigrams with Linear Transformers [47.37256334633102]
スパース・コン・ビグラム(Sparse Con Bigram)モデルを導入し、次のトークンの生成は、最後のトークンによって決定される以前の位置のスパースセットに依存する。勾配アルゴリズムを用いた一層線形変圧器を用いて,SCB学習のトレーニングダイナミクスとサンプル複雑性を解析した。下流と事前学習タスクの間に非自明な相関関係があることを証明し、事前訓練されたモデルから微調整することで、初期サンプル集約段階を回避できることを証明した。
論文参考訳（メタデータ） (2024-10-30T20:29:10Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
TOAST: Transformer Optimization using Adaptive and Simple Transformations [40.311292704886235]
ToASTは,全トランスバータブロックを軽量なクローズドフォームマッピングで近似する冗長性を利用するフレームワークである。その結果,変圧器の深さの大部分は自明な関数に置き換えられ,効率的な基礎モデルに対する新たな視点が開かれた。
論文参考訳（メタデータ） (2024-10-07T11:35:24Z)
Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文参考訳（メタデータ） (2024-05-10T17:59:08Z)
Tangent Transformers for Composition, Privacy and Removal [58.280295030852194]
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。 TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
論文参考訳（メタデータ） (2023-07-16T18:31:25Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Semantic-visual Guided Transformer for Few-shot Class-incremental Learning [6.300141694311465]
本研究では,事前学習した機能バックボーンの機能抽出能力を向上させるために,セマンティック・ビジュアル・ガイド付きトランスフォーマー (SV-T) を開発した。我々のSV-Tは、ベースクラスからのより監督的な情報を最大限に活用し、機能バックボーンのトレーニングロバスト性をさらに強化できます。
論文参考訳（メタデータ） (2023-03-27T15:06:49Z)
Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文参考訳（メタデータ） (2023-03-02T05:21:18Z)
Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文参考訳（メタデータ） (2021-06-02T17:53:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。