論文の概要: One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.12245v1
- Date: Thu, 12 Mar 2026 17:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.280181
- Title: One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers
- Title(参考訳): 1モデル, 多くの予算:拡散変圧器用弾性潜時インタフェース
- Authors: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Dogyun Park, Anil Kag, Michael Vasilkovsky, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin,
- Abstract要約: Elastic Latent Interface Transformer (ELIT) は、入力画像サイズを計算から切り離すための、ドロップインでDiT互換のメカニズムである。
読み取りと書き込み クロスアテンション・レイヤは空間トークンとラテントの間で情報を移動し、重要な入力領域を優先する。
ImageNet-1K 512pxでは、ELITの平均利得は35.3%、FIDおよびFDDスコアは39.6%である。
- 参考スコア(独自算出の注目度): 80.19461768457622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers (DiTs) achieve high generative quality but lock FLOPs to image resolution, limiting principled latency-quality trade-offs, and allocate computation uniformly across input spatial tokens, wasting resource allocation to unimportant regions. We introduce Elastic Latent Interface Transformer (ELIT), a drop-in, DiT-compatible mechanism that decouples input image size from compute. Our approach inserts a latent interface, a learnable variable-length token sequence on which standard transformer blocks can operate. Lightweight Read and Write cross-attention layers move information between spatial tokens and latents and prioritize important input regions. By training with random dropping of tail latents, ELIT learns to produce importance-ordered representations with earlier latents capturing global structure while later ones contain information to refine details. At inference, the number of latents can be dynamically adjusted to match compute constraints. ELIT is deliberately minimal, adding two cross-attention layers while leaving the rectified flow objective and the DiT stack unchanged. Across datasets and architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT delivers consistent gains. On ImageNet-1K 512px, ELIT delivers an average gain of $35.3\%$ and $39.6\%$ in FID and FDD scores. Project page: https://snap-research.github.io/elit/
- Abstract(参考訳): 拡散変換器(DiT)は、高生成品質を実現するが、FLOPを画像解像度にロックし、原理化されたレイテンシ品質のトレードオフを制限し、入力空間トークン間で一様に計算を割り当て、重要でない領域へのリソース割り当てを無駄にする。
本稿では,入力画像サイズを計算から切り離すためのDET互換機構であるElastic Latent Interface Transformer (ELIT)を紹介する。
提案手法では,標準トランスフォーマーブロックが動作可能な,学習可能な可変長トークンシーケンスである潜時インタフェースを挿入する。
Lightweight Read and Write Cross-attention Layerは、空間トークンと潜者の間で情報を移動し、重要な入力領域を優先する。
末尾のレイトントをランダムに落としてトレーニングすることにより、ELITはより初期のレイトントがグローバル構造をキャプチャし、後続のレイトントが詳細を洗練するための情報を含む、重要順序の表現を生成することを学ぶ。
推論では、計算制約に合うようにラテントの数を動的に調整することができる。
ELITは意図的に最小限であり、2つのクロスアテンション層を追加しつつ、修正フローの目的とDiTスタックをそのままにしておく。
データセットとアーキテクチャ全体(DiT、U-ViT、HDiT、MM-DiT)において、ELITは一貫性のあるゲインを提供する。
ImageNet-1K 512pxでは、ELITは平均35.3\%$と39.6\%$のFIDとFDDスコアを提供する。
プロジェクトページ: https://snap-research.github.io/elit/
関連論文リスト
- Dynamic Chunking Diffusion Transformer [16.954365273223473]
Diffusion Transformerは静的$textitpatchify$演算によって生成されるトークンの固定長シーケンスとしてイメージを処理する。
本研究では, 動的チャンキング拡散変換器 (DC-DiT) を導入し, 学習したエンコーダ・ルータ・デコーダの足場でDiTのバックボーンを増強する。
DC-DiTは、均一な背景領域をより少ないトークンに圧縮し、より詳細な領域をより多くのトークンに圧縮することを学ぶ。
論文 参考訳(メタデータ) (2026-03-06T14:59:11Z) - PiT: Progressive Diffusion Transformer [50.46345527963736]
拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。
DiTは以前信じられていたようなグローバルな情報に大きく依存していない。
Pseudo Progressive Diffusion Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2025-05-19T15:02:33Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - Efficient Point Transformer with Dynamic Token Aggregating for LiDAR Point Cloud Processing [19.73918716354272]
LiDARポイントクラウド処理と解析は、3Dトランスの開発によって大きな進歩を遂げた。
既存の3Dトランスフォーマー法は通常、計算コストが高く、大きな注意マップと冗長な注意マップのために非効率である。
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Scalable Adaptive Computation for Iterative Generation [13.339848496653465]
リカレントインタフェースネットワーク(Recurrent Interface Networks, RIN)は、データ次元からコア計算を分離するアテンションベースのアーキテクチャである。
RINは、潜在トークンとデータトークンの間の情報の読み込みと書き込みにクロスアテンションを使用する、潜在トークンのセットに計算の大部分を集中する。
RINは、画像生成とビデオ生成のための最先端のピクセル拡散モデルを生成し、カスケードやガイダンスなしで1024X1024画像にスケーリングする。
論文 参考訳(メタデータ) (2022-12-22T18:55:45Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。