論文の概要: RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2502.14377v2
- Date: Fri, 21 Feb 2025 10:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:50:05.573341
- Title: RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers
- Title(参考訳): RelaCtrl:拡散変圧器の関連誘導能率制御
- Authors: Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang,
- Abstract要約: Diffusion Transformerは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において重要な役割を果たす。
本稿では,Relevance-Guided Efficient Controllable GenerationフレームワークRelaCtrlを提案する。
本手法は PixArt-delta と比較して, パラメータと計算複雑性の 15% しか得られず, 優れた性能を実現する。
- 参考スコア(独自算出の注目度): 11.003945673813488
- License:
- Abstract: The Diffusion Transformer plays a pivotal role in advancing text-to-image and text-to-video generation, owing primarily to its inherent scalability. However, existing controlled diffusion transformer methods incur significant parameter and computational overheads and suffer from inefficient resource allocation due to their failure to account for the varying relevance of control information across different transformer layers. To address this, we propose the Relevance-Guided Efficient Controllable Generation framework, RelaCtrl, enabling efficient and resource-optimized integration of control signals into the Diffusion Transformer. First, we evaluate the relevance of each layer in the Diffusion Transformer to the control information by assessing the "ControlNet Relevance Score"-i.e., the impact of skipping each control layer on both the quality of generation and the control effectiveness during inference. Based on the strength of the relevance, we then tailor the positioning, parameter scale, and modeling capacity of the control layers to reduce unnecessary parameters and redundant computations. Additionally, to further improve efficiency, we replace the self-attention and FFN in the commonly used copy block with the carefully designed Two-Dimensional Shuffle Mixer (TDSM), enabling efficient implementation of both the token mixer and channel mixer. Both qualitative and quantitative experimental results demonstrate that our approach achieves superior performance with only 15% of the parameters and computational complexity compared to PixArt-delta.
- Abstract(参考訳): Diffusion Transformerはテキスト・ツー・イメージとテキスト・ツー・ビデオ生成において重要な役割を担っている。
しかし,既存の制御拡散変圧器法では,異なる変圧器層にまたがる制御情報の相互関係を考慮できないため,パラメータや計算上のオーバーヘッドが大きくなり,資源割り当ての効率の悪さに悩まされる。
そこで本稿では,Relevance-Guided Efficient Controllable GenerationフレームワークであるRelaCtrlを提案する。
まず,拡散変換器の各層と制御情報との関連性を評価するために,制御層をスキップした影響と推定時の制御効果の両面について,"ControlNet Relevance Score" の評価を行った。
関連性の強さに基づいて、不要なパラメータや冗長な計算を減らすために、制御層の位置決め、パラメータスケール、モデリング能力を調整します。
さらに効率を向上するため、よく使われるコピーブロックの自己注意とFFNを慎重に設計された2次元シャッフルミキサー(TDSM)に置き換え、トークンミキサーとチャネルミキサーの両方を効率的に実装する。
定性的および定量的な実験結果から,本手法は PixArt-delta と比較して, パラメータと計算複雑性の 15% しか得られず, 優れた性能を発揮することが示された。
関連論文リスト
- Shared DIFF Transformer [4.289692335378565]
DIFF変換器は、ノイズを抑えながら、関連するコンテキストに焦点をあてることにより、アテンションアロケーションを改善する。
本稿では,大域的パターンをモデル化するための共有基底行列を導入することにより,差動増幅器のアイデアに基づく共有DIFF変換器を提案する。
この設計はパラメータの冗長性を著しく低減し、効率を向上し、強いノイズ抑制機能を保持する。
論文 参考訳(メタデータ) (2025-01-29T09:29:07Z) - Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。
本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。
このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文 参考訳(メタデータ) (2025-01-06T06:34:52Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - RepControlNet: ControlNet Reparameterization [0.562479170374811]
RepControlNetは計算量を増やすことなく拡散モデルの制御可能な生成を実現する。
SD1.5とSDXLの両方で多数の実験を行い,提案したRepControlNetの有効性と有効性を示した。
論文 参考訳(メタデータ) (2024-08-17T16:21:51Z) - Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - Controllable Text Generation with Residual Memory Transformer [4.9329649616940205]
任意の時間ステップでCLMを生成するための,非侵襲的で軽量な制御プラグインを提案する。
提案されているプラグイン、すなわちResidual Memory Transformer (RMT)は、任意の種類の制御条件を受け入れることができるエンコーダとデコーダのセットアップを備えている。
各種制御タスクにおいて, 自動評価と人的評価の両面で, 広範囲な実験が実施されている。
論文 参考訳(メタデータ) (2023-09-28T08:13:33Z) - Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT)
CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。
以上の結果より, CRAFTは現状の方法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2023-08-09T15:38:36Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。