論文の概要: Region-Adaptive Sampling for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2502.10389v1
- Date: Fri, 14 Feb 2025 18:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:29.739671
- Title: Region-Adaptive Sampling for Diffusion Transformers
- Title(参考訳): 拡散変換器の領域適応サンプリング
- Authors: Ziming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang,
- Abstract要約: RASは、DiTモデルの焦点に基づいて、画像内の領域に異なるサンプリング比を動的に割り当てる。
安定拡散3とLumina-Next-T2IのRASを評価し,それぞれ2.36xと2.51xの高速化を実現し,生成品質の低下を最小限に抑えた。
- 参考スコア(独自算出の注目度): 23.404921023113324
- License:
- Abstract: Diffusion models (DMs) have become the leading choice for generative tasks across diverse domains. However, their reliance on multiple sequential forward passes significantly limits real-time performance. Previous acceleration methods have primarily focused on reducing the number of sampling steps or reusing intermediate results, failing to leverage variations across spatial regions within the image due to the constraints of convolutional U-Net structures. By harnessing the flexibility of Diffusion Transformers (DiTs) in handling variable number of tokens, we introduce RAS, a novel, training-free sampling strategy that dynamically assigns different sampling ratios to regions within an image based on the focus of the DiT model. Our key observation is that during each sampling step, the model concentrates on semantically meaningful regions, and these areas of focus exhibit strong continuity across consecutive steps. Leveraging this insight, RAS updates only the regions currently in focus, while other regions are updated using cached noise from the previous step. The model's focus is determined based on the output from the preceding step, capitalizing on the temporal consistency we observed. We evaluate RAS on Stable Diffusion 3 and Lumina-Next-T2I, achieving speedups up to 2.36x and 2.51x, respectively, with minimal degradation in generation quality. Additionally, a user study reveals that RAS delivers comparable qualities under human evaluation while achieving a 1.6x speedup. Our approach makes a significant step towards more efficient diffusion transformers, enhancing their potential for real-time applications.
- Abstract(参考訳): 拡散モデル(DM)は、様々な領域にわたる生成タスクの主要な選択肢となっている。
しかし、複数のシーケンシャルフォワードへの依存は、リアルタイムのパフォーマンスを著しく制限する。
従来の加速法は主にサンプリングステップの削減や中間結果の再利用に重点を置いており、畳み込みU-Net構造の制約により画像内の空間領域の変動を利用することができなかった。
可変数のトークンを扱うために拡散変換器(DiT)の柔軟性を活用することで、DETモデルの焦点に基づいて画像内の領域に対して異なるサンプリング比を動的に割り当てる新しいトレーニング不要サンプリング戦略であるRASを導入する。
我々の重要な観察は、サンプリングの各段階において、モデルは意味的に意味のある領域に集中しており、これらの領域は連続的なステップ間で強い連続性を示すことである。
この洞察を活用して、RASは、現在注目されているリージョンのみを更新し、他のリージョンは、前のステップからキャッシュされたノイズを使用して更新する。
モデルの焦点は、観測した時間的一貫性に基づいて、前ステップの出力に基づいて決定される。
安定拡散3とLumina-Next-T2IのRASを評価し,それぞれ2.36xと2.51xの高速化を実現し,生成品質の低下を最小限に抑えた。
さらに、ユーザ調査によると、RASは、1.6倍のスピードアップを達成しながら、人間による評価の下で同等の品質を提供する。
我々のアプローチは、より効率的な拡散トランスフォーマーに向けて大きな一歩を踏み出し、リアルタイムアプリケーションの可能性を高めます。
関連論文リスト
- DuoDiff: Accelerating Diffusion Models with a Dual-Backbone Approach [36.23986690453326]
近年,各サンプリングステップの難易度に基づいてデノナイジングネットワークの深さを適応させる手法が提案されている。
本稿では,初期サンプリングステップでより浅いデノナイジングネットワーク,後半ステップでより深いネットワークを用いることにより,より高速な生成を提案する。
両バックボーンアプローチであるDuoDiffは、推定速度と生成品質の両方で既存の早期拡散法より優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-10-12T20:00:29Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - DDLNet: Boosting Remote Sensing Change Detection with Dual-Domain Learning [5.932234366793244]
変化センシング(RSCD)は、多時間リモートセンシング画像を分析して、ある領域における関心の変化を特定することを目的としている。
既存のRSCD法は、関心の変化を高めるために空間領域におけるコンテキストモデリングに費やされている。
二重領域学習(周波数領域と空間領域)に基づくRSCDネットワークDNetを提案する。
論文 参考訳(メタデータ) (2024-06-19T14:54:09Z) - Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers [0.7496510641958004]
我々はSwin Transformerを拡張して、異なる医用画像モダリティから学習し、下流のパフォーマンスを向上させる。
SwinFUSEと呼ばれるこのモデルは,事前学習中にCT(Computed Tomography)とMRI(Magical Resonance Images)の両方から学習し,補完的な特徴表現をもたらす。
論文 参考訳(メタデータ) (2024-05-21T13:28:32Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D
Object Pose Estimation [66.16525145765604]
実世界のシナリオにおける6次元オブジェクトポーズ推定のためのSE(3)拡散モデルに基づく点クラウド登録フレームワークを提案する。
提案手法は,3次元登録タスクをデノナイズ拡散過程として定式化し,音源雲の姿勢を段階的に洗練する。
実世界のTUD-L, LINEMOD, およびOccluded-LINEMODデータセットにおいて, 拡散登録フレームワークが顕著なポーズ推定性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-26T12:47:26Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - CDN-MEDAL: Two-stage Density and Difference Approximation Framework for
Motion Analysis [3.337126420148156]
本稿では,2つの畳み込みニューラルネットワークを用いた2段階変化検出手法を提案する。
筆者らの2段階フレームワークは, 約3.5Kのパラメータを含むが, 複雑な動きパターンに対する迅速な収束は維持されている。
論文 参考訳(メタデータ) (2021-06-07T16:39:42Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。