Fugu-MT 論文翻訳(概要): ElastiFormer: Learned Redundancy Reduction in Transformer via Self-Distillation

論文の概要: ElastiFormer: Learned Redundancy Reduction in Transformer via Self-Distillation

arxiv url: http://arxiv.org/abs/2411.15281v1
Date: Fri, 22 Nov 2024 16:11:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.345306
Title: ElastiFormer: Learned Redundancy Reduction in Transformer via Self-Distillation
Title（参考訳）: ElastiFormer: 自己蒸留による変圧器の冗長性の学習
Authors: Junzhang Liu, Tingkai Liu, Yueyuan Sui, Stephen Xia,
Abstract要約: ElastiFormerは、トレーニング済みのTransformerモデルを、可変推論時間計算と弾力性のあるものに適合させる。ルーティングモジュールは、事前訓練されたモデルの出力と弾力性のあるモジュールとの差を最小限に抑えるために、自己蒸留損失を使用して訓練される。
参考スコア（独自算出の注目度）: 0.6281017402518722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce ElastiFormer, a post-training technique that adapts pretrained Transformer models into an elastic counterpart with variable inference time compute. ElastiFormer introduces small routing modules (as low as .00006% additional trainable parameters) to dynamically selects subsets of network parameters and input tokens to be processed by each layer of the pretrained network in an inputdependent manner. The routing modules are trained using self-distillation losses to minimize the differences between the output of the pretrained-model and their elastic counterparts. As ElastiFormer makes no assumption regarding the modality of the pretrained Transformer model, it can be readily applied to all modalities covering causal language modeling, image modeling as well as visual-language modeling tasks. We show that 20% to 50% compute saving could be achieved for different components of the transformer layer, which could be further reduced by adding very low rank LoRA weights (rank 1) trained via the same distillation objective. Finally, by comparing routing trained on different subsets of ImageNet, we show that ElastiFormer is robust against the training domain.
Abstract（参考訳）: ElastiFormerは、事前学習したTransformerモデルを可変時間計算の弾性に適応させるポストトレーニング手法である。 ElastiFormerは、ネットワークパラメータと入力トークンのサブセットを動的に選択し、事前訓練されたネットワークの各レイヤで入力依存的に処理する小さなルーティングモジュール(.00006%追加のトレーニング可能なパラメータ)を導入している。ルーティングモジュールは、事前訓練されたモデルと弾力性のあるモデルとの出力差を最小限に抑えるために、自己蒸留損失を用いて訓練される。 ElastiFormerは、事前訓練されたTransformerモデルのモダリティを仮定しないので、因果言語モデリング、画像モデリング、および視覚言語モデリングタスクを含む全てのモダリティに容易に適用することができる。以上の結果から, トランス層の異なる成分に対して20%から50%の省エネが可能であり, ローラ重量(ランク1)を同じ蒸留法でトレーニングすることにより, さらに低減できることがわかった。最後に、ImageNetの異なるサブセットでトレーニングされたルーティングを比較することで、ElastiFormerはトレーニングドメインに対して堅牢であることを示す。

関連論文リスト

Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior [25.975757048963413]
ポストホックの解釈可能性のメソッドは、通常、モデルの振る舞いをそのコンポーネント、データ、または独立した訓練軌跡に関連付ける。 3つの視点をすべて統合した統合フレームワークであるExPLAINDを紹介します。
論文参考訳（メタデータ） (2025-05-26T14:53:11Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文参考訳（メタデータ） (2024-01-23T14:53:20Z)
Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文参考訳（メタデータ） (2023-12-05T11:55:47Z)
Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文参考訳（メタデータ） (2023-08-18T13:20:08Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文参考訳（メタデータ） (2021-04-08T08:21:59Z)
Learning to Learn Parameterized Classification Networks for Scalable Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文参考訳（メタデータ） (2020-07-13T04:27:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。