論文の概要: Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators
- arxiv url: http://arxiv.org/abs/2408.05710v1
- Date: Sun, 11 Aug 2024 07:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:57:51.958182
- Title: Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators
- Title(参考訳): ステップワイドダイナミックアテンションメディエータを用いた効率的な拡散変圧器
- Authors: Yifan Pu, Zhuofan Xia, Jiayi Guo, Dongchen Han, Qixiu Li, Duo Li, Yuhui Yuan, Ji Li, Yizeng Han, Shiji Song, Gao Huang, Xiu Li,
- Abstract要約: 本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
- 参考スコア(独自算出の注目度): 83.48423407316713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper identifies significant redundancy in the query-key interactions within self-attention mechanisms of diffusion transformer models, particularly during the early stages of denoising diffusion steps. In response to this observation, we present a novel diffusion transformer framework incorporating an additional set of mediator tokens to engage with queries and keys separately. By modulating the number of mediator tokens during the denoising generation phases, our model initiates the denoising process with a precise, non-ambiguous stage and gradually transitions to a phase enriched with detail. Concurrently, integrating mediator tokens simplifies the attention module's complexity to a linear scale, enhancing the efficiency of global attention processes. Additionally, we propose a time-step dynamic mediator token adjustment mechanism that further decreases the required computational FLOPs for generation, simultaneously facilitating the generation of high-quality images within the constraints of varied inference budgets. Extensive experiments demonstrate that the proposed method can improve the generated image quality while also reducing the inference cost of diffusion transformers. When integrated with the recent work SiT, our method achieves a state-of-the-art FID score of 2.01. The source code is available at https://github.com/LeapLabTHU/Attention-Mediators.
- Abstract(参考訳): 本稿では,拡散変圧器モデルの自己アテンション機構における問合せキー相互作用の有意な冗長性を,特に拡散過程の初期段階において明らかにする。
そこで本研究では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマフレームワークを提案する。
生成フェーズにおける仲介者トークンの数を変調することにより,デノナイズ処理を正確に非曖昧な段階で開始し,より詳細に富んだフェーズへと徐々に移行する。
同時に、メディエータトークンの統合により、アテンションモジュールの複雑さを線形スケールに単純化し、グローバルアテンションプロセスの効率を向上する。
さらに,時間ステップの動的メディエータトークン調整機構を提案し,様々な推論予算の制約の中で高品質な画像の生成を容易にし,生成に必要なFLOPの削減を図る。
広汎な実験により、提案手法は、拡散トランスの推論コストを低減しつつ、生成画像の品質を向上させることができることを示した。
近年のSiTと統合すると,FIDスコアが2.01となる。
ソースコードはhttps://github.com/LeapLabTHU/Attention-Mediatorsで入手できる。
関連論文リスト
- Learning Monotonic Attention in Transducer for Streaming Generation [26.24357071901915]
本研究では,Transducerベースのストリーミング生成モデルにおいて,非単調アライメントを扱うための学習可能なモノトニックアテンション機構を提案する。
提案手法により,Transducerモデルでは,指数関数的に大きなアライメント空間を列挙する必要がなく,その予測に基づいてアライメント範囲を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-11-26T07:19:26Z) - Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
本稿では,2つの革新点を持つトランスフォーマーアーキテクチャを提案する。
提案手法をREDDデータセット上で検証し, 各種アプライアンスに対してF1スコアを10~15%向上させる結果を得た。
論文 参考訳(メタデータ) (2024-10-12T18:58:45Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。
Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文 参考訳(メタデータ) (2024-07-01T16:14:37Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Towards Better Text-to-Image Generation Alignment via Attention Modulation [16.020834525343997]
本研究では,拡散モデルに対する注意の変調による学習自由な位相ワイズ機構である属性焦点機構を提案する。
クロスアテンションモジュールには、オブジェクト指向マスキングスキームと位相ワイドダイナミックウェイトコントロール機構が組み込まれている。
様々なアライメントシナリオにおける実験結果から,我々のモデルは最小の計算コストでより優れた画像テキストアライメントを実現することができた。
論文 参考訳(メタデータ) (2024-04-22T06:18:37Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。