論文の概要: ELT: Elastic Looped Transformers for Visual Generation
- arxiv url: http://arxiv.org/abs/2604.09168v1
- Date: Fri, 10 Apr 2026 09:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.812288
- Title: ELT: Elastic Looped Transformers for Visual Generation
- Title(参考訳): ELT: ビジュアルジェネレーションのための弾性ループ変換器
- Authors: Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati,
- Abstract要約: 本稿では,ビジュアル生成モデルのパラメータ効率の高いクラスであるElastic Looped Transformers (ELT)を紹介する。
ELTは視覚合成の効率フロンティアを著しくシフトさせる。
ELTは、クラス条件で2.0ドル、クラス条件で256ドル、256ドル、クラス条件で72.8ドルという競争力のあるFIDを実現している。
- 参考スコア(独自算出の注目度): 20.588365438716398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With $4\times$ reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of $2.0$ on class-conditional ImageNet $256 \times 256$ and FVD of $72.8$ on class-conditional UCF-101.
- Abstract(参考訳): 本稿では,再帰型トランスアーキテクチャに基づく高パラメータ効率な視覚生成モデルであるElastic Looped Transformer (ELT)を紹介する。
従来の生成モデルは一意な変圧器層の深いスタックに依存しているが,本手法では,高合成品質を維持しながらパラメータ数を劇的に削減するために,反復的に重み付けされた変圧器ブロックを用いる。
イメージ生成と映像生成のためにこれらのモデルを効果的に訓練するために,教師構成(最大学習ループ)から学生構成(中間ループ)を蒸留し,モデルの深度に一貫性を確保するILSD(Intra-Loop Self Distillation)を提案する。
我々のフレームワークは、単一のトレーニング実行から弾力性のあるモデルのファミリーを生成し、同じパラメータ数で計算コストと生成品質の動的トレードオフを伴うAny-Time推論機能を実現する。
ELTは視覚合成の効率フロンティアを著しくシフトさせる。
アイソ推論計算設定でパラメータカウントが$4\times$下げられ、ERTはクラス条件で$2.0$、クラス条件で$256 \times 256$、クラス条件で$72.8$のFVDを達成している。
関連論文リスト
- Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers [10.251154683874033]
拡散変換器(DiT)は画像生成において例外的な性能を示したが、その大きなパラメータ数は計算コストが高い。
提案するPlugable Pruning with Contiguous Layer Distillation (PPCL)は,DiTアーキテクチャ用に設計されたフレキシブルな構造化プルーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T08:53:07Z) - EcoSpa: Efficient Transformer Training with Coupled Sparsity [79.5008521101473]
トランスフォーマーは現代のAIのバックボーンとなっているが、その高い計算要求は重要なシステム課題を引き起こしている。
EcoSpaは、結合した重み行列対を共同で評価し、スパース化する効率的な構造的スパース訓練法である。
論文 参考訳(メタデータ) (2025-11-09T11:23:43Z) - Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文 参考訳(メタデータ) (2025-10-20T16:15:03Z) - FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute [25.151209708074134]
当社のフレームワークでは、事前トレーニングされたDiTモデルを、FlexiDiTと呼ばれる、屈曲可能なモデルに変換することが可能です。
本研究では,単一のエンフレキシブルモデルが画質の低下を伴わずに画像を生成する方法を示す。
我々は、FlexiDiTモデルが最大7,5$%の計算量でサンプルを生成するビデオ生成のために、我々のアプローチをどのように簡単に拡張できるかを示す。
論文 参考訳(メタデータ) (2025-02-27T14:16:56Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。
私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。
私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文 参考訳(メタデータ) (2021-07-25T14:44:24Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。