論文の概要: AccelAes: Accelerating Diffusion Transformers for Training-Free Aesthetic-Enhanced Image Generation
- arxiv url: http://arxiv.org/abs/2603.12575v1
- Date: Fri, 13 Mar 2026 02:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.847555
- Title: AccelAes: Accelerating Diffusion Transformers for Training-Free Aesthetic-Enhanced Image Generation
- Title(参考訳): AccelAes: トレーニング不要の審美強化画像生成のための拡散変換器の高速化
- Authors: Xuanhua Yin, Chuanzhi Xu, Haoxian Zhou, Boyu Wei, Weidong Cai,
- Abstract要約: 密度の高い空間トークンに対する二次的自己注意は、高いレイテンシとデプロイメントの制限につながる。
美学と時間的減量によってDiTを加速するトレーニングフリーフレームワークであるAccelAesを提案する。
代表的なDiTファミリーの実験では、一貫した加速と美学指向の品質の向上が見られた。
- 参考スコア(独自算出の注目度): 6.515605629935705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) are a dominant backbone for high-fidelity text-to-image generation due to strong scalability and alignment at high resolutions. However, quadratic self-attention over dense spatial tokens leads to high inference latency and limits deployment. We observe that denoising is spatially non-uniform with respect to aesthetic descriptors in the prompt. Regions associated with aesthetic tokens receive concentrated cross-attention and show larger temporal variation, while low-affinity regions evolve smoothly with redundant computation. Based on this insight, we propose AccelAes, a training-free framework that accelerates DiTs through aesthetics-aware spatio-temporal reduction while improving perceptual aesthetics. AccelAes builds AesMask, a one-shot aesthetic focus mask derived from prompt semantics and cross-attention signals. When localized computation is feasible, SkipSparse reallocates computation and guidance to masked regions. We further reduce temporal redundancy using a lightweight step-level prediction cache that periodically replaces full Transformer evaluations. Experiments on representative DiT families show consistent acceleration and improved aesthetics-oriented quality. On Lumina-Next, AccelAes achieves a 2.11$\times$ speedup and improves ImageReward by +11.9% over the dense baseline. Code is available at https://github.com/xuanhuayin/AccelAes.
- Abstract(参考訳): 拡散トランスフォーマ(Diffusion Transformer, DiTs)は高解像度の高精細なテキスト・ツー・イメージ生成において, 高いスケーラビリティと高精細度でのアライメントのために支配的なバックボーンである。
しかし、密集した空間トークンに対する二次的な自己注意は、高い推論遅延とデプロイメントの制限をもたらす。
本研究は,視覚的記述者に対して空間的に非一様であることを観察する。
低親和性領域は冗長な計算によって円滑に進化する一方、美的トークンに関連する領域は密接な相互注意を受け、時間的変動が大きい。
この知見に基づいて, 知覚的美学を改善しつつ, 時空間還元を意識してDiTを加速するトレーニングフリーフレームワークであるAccelAesを提案する。
AccelAesは、プロンプトセマンティクスとクロスアテンション信号から派生したワンショットの美的フォーカスマスクであるAesMaskを開発している。
ローカライズされた計算が実現可能な場合、SkipSparseは計算とマスクされた領域へのガイダンスを再配置する。
さらに、フルトランスフォーマー評価を定期的に置き換える軽量なステップレベルの予測キャッシュを用いて、時間的冗長性をさらに低減する。
代表的なDiTファミリーの実験では、一貫した加速と美学指向の品質の向上が見られた。
Lumina-Nextでは、AccelAesは2.11$\times$のスピードアップを達成した。
コードはhttps://github.com/xuanhuayin/AccelAes.comで入手できる。
関連論文リスト
- Stateful Token Reduction for Long-Video Hybrid VLMs [69.6930118088911]
ハイブリッドビデオビジョン言語モデル(VLM)のクエリ条件付きトークン削減について検討する。
本稿では,低段階から高段階の減算スケジュールと,注意とマンバブロックの両ブロックを対象とした言語認識スコアリング機構を提案する。
積極的圧縮条件下では,本手法はテスト時にほぼベースライン精度で精度の高いプリフィルング・スピードアップを実現する。
論文 参考訳(メタデータ) (2026-02-27T08:11:06Z) - SparVAR: Exploring Sparsity in Visual AutoRegressive Modeling for Training-Free Acceleration [23.86429472943524]
本稿では,視覚的オートレグレッシブ・アテンションの3つの特性,すなわち強いアテンション・シンク,大規模アクティベーション類似性,局所性の3つの特性を利用する,トレーニング不要なアクティベーション・フレームワークを提案する。
具体的には、後続の高分解能尺度のスパースアテンションパターンをスパース決定尺度から動的に予測し、効率的なインデックスマッピング機構を用いて自己相似スパースアテンションを構築する。
提案手法は、ほぼすべての高周波の詳細を保存しながら、$mathbf1.57times$ Speed-upを実現する。
論文 参考訳(メタデータ) (2026-02-04T09:34:06Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - THAT: Token-wise High-frequency Augmentation Transformer for Hyperspectral Pansharpening [11.026691195419453]
トランスフォーマーに基づく手法は、高スペクトルパンシャーピングにおいて強い可能性を証明している。
それらの効果は、冗長なトークン表現とマルチスケール機能モデリングの欠如によって制限されることが多い。
本稿では,高スペクトルパンシャーピングを向上する新しいフレームワークであるToken-wise High- frequency Augmentation Transformer (THAT)を提案する。
論文 参考訳(メタデータ) (2025-08-11T17:03:10Z) - Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration [24.85624444212476]
本研究は,拡散過程を伴わない領域における不規則な特徴冗長性への参加という,新しい概念を提案する。
我々は, 特徴冗長度の位置と度合いを, 構造的詳細記述に基づく分析を行った。
SDTMは,特徴冗長性を動的に圧縮する構造的詳細トークンマージ手法である。
論文 参考訳(メタデータ) (2025-05-16T21:27:38Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - VGOS: Voxel Grid Optimization for View Synthesis from Sparse Inputs [9.374561178958404]
VGOSはスパースインプット(3-10ビュー)からの高速(3-5分)放射場再構成のためのアプローチ
周辺ボクセルの最適化を抑えることでオーバーフィッティングを防止できるインクリメンタルボクセルトレーニング戦略を導入する。
超高速収束によるスパース入力に対して,VGOSが最先端の性能を達成することを示す実験を行った。
論文 参考訳(メタデータ) (2023-04-26T08:52:55Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。