論文の概要: ToMA: Token Merge with Attention for Image Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.10918v1
- Date: Sat, 13 Sep 2025 17:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.839236
- Title: ToMA: Token Merge with Attention for Image Generation with Diffusion Models
- Title(参考訳): ToMA:拡散モデルを用いた画像生成のための注意とToken統合
- Authors: Wenbo Lu, Shaoyi Zheng, Yuxuan Xia, Shengjie Wang,
- Abstract要約: 拡散モデルは高忠実度画像生成において優れるが、トランスフォーマーの二次的注意複雑さによる拡張性に限界がある。
本稿では,GPU整列効率のトークン削減を否定する市販のToMA(Token Merge with Attention)を提案する。
ToMAはSDXL/Flux生成遅延を24%/23%削減する(DINO $Delta 0.07$)。
- 参考スコア(独自算出の注目度): 8.079656935981193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models excel in high-fidelity image generation but face scalability limits due to transformers' quadratic attention complexity. Plug-and-play token reduction methods like ToMeSD and ToFu reduce FLOPs by merging redundant tokens in generated images but rely on GPU-inefficient operations (e.g., sorting, scattered writes), introducing overheads that negate theoretical speedups when paired with optimized attention implementations (e.g., FlashAttention). To bridge this gap, we propose Token Merge with Attention (ToMA), an off-the-shelf method that redesigns token reduction for GPU-aligned efficiency, with three key contributions: 1) a reformulation of token merge as a submodular optimization problem to select diverse tokens; 2) merge/unmerge as an attention-like linear transformation via GPU-friendly matrix operations; and 3) exploiting latent locality and sequential redundancy (pattern reuse) to minimize overhead. ToMA reduces SDXL/Flux generation latency by 24%/23%, respectively (with DINO $\Delta < 0.07$), outperforming prior methods. This work bridges the gap between theoretical and practical efficiency for transformers in diffusion.
- Abstract(参考訳): 拡散モデルは高忠実度画像生成において優れるが、トランスフォーマーの二次的注意複雑さによる拡張性に限界がある。
ToMeSDやToFuのようなプラグアンドプレイのトークン削減メソッドは、生成されたイメージに冗長トークンをマージすることでFLOPを削減するが、GPU非効率な操作(例えばソート、散在書き込み)に依存し、最適化されたアテンション実装(例えば、FlashAttention)と組み合わせた場合の理論的スピードアップを無効にするオーバーヘッドを導入する。
このギャップを埋めるために、トークン削減をGPU整合効率に再設計する市販のToMA(Token Merge with Attention)を提案する。
1) 各種トークンを選択するための部分モジュラ最適化問題としてのトークンマージの再構成
2)GPUフレンドリーな行列演算による注目ライナー変換としてのマージ/アンマージ
3) 遅延ローカリティとシーケンシャルな冗長性(パターンの再利用)を活用してオーバーヘッドを最小限にする。
ToMAはSDXL/Flux生成遅延を24%/23%削減する(DINO $\Delta < 0.07$)。
この研究は拡散における変圧器の理論的効率と実用的効率のギャップを埋めるものである。
関連論文リスト
- Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。
本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文 参考訳(メタデータ) (2025-05-25T10:57:35Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [57.56385490252605]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - DiTFastAttn: Attention Compression for Diffusion Transformer Models [26.095923502799664]
拡散変換器(DiT)は画像および映像生成において優れるが、自己注意演算子による計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するための後処理圧縮手法であるDiTFastAttnを提案する。
その結果,画像生成ではFLOPの最大76%を削減し,高分解能(2k x 2k)世代で最大1.8倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-12T18:00:08Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - EcoFormer: Energy-Saving Attention with Linear Complexity [40.002608785252164]
Transformerはシーケンシャルデータをモデル化する変換フレームワークである。
本研究では,高次元ソフトマックスアテンションにカスタマイズした新しいバイナライゼーションパラダイムを提案する。
EcoFormerは、標準の注意を払って、一貫して同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-09-19T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。