論文の概要: RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2502.14377v1
- Date: Thu, 20 Feb 2025 09:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:23.865668
- Title: RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers
- Title(参考訳): RelaCtrl:拡散変圧器の関連誘導能率制御
- Authors: Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang,
- Abstract要約: 本稿では,Relevance-Guided Efficient Controllable GenerationフレームワークRelaCtrlを提案する。
拡散変換器の各層と制御情報との関連性を評価する。
次に、不要なパラメータと冗長な計算を減らすために、制御層の位置決め、パラメータスケール、モデリング能力を調整します。
- 参考スコア(独自算出の注目度): 11.003945673813488
- License:
- Abstract: The Diffusion Transformer plays a pivotal role in advancing text-to-image and text-to-video generation, owing primarily to its inherent scalability. However, existing controlled diffusion transformer methods incur significant parameter and computational overheads and suffer from inefficient resource allocation due to their failure to account for the varying relevance of control information across different transformer layers. To address this, we propose the Relevance-Guided Efficient Controllable Generation framework, RelaCtrl, enabling efficient and resource-optimized integration of control signals into the Diffusion Transformer. First, we evaluate the relevance of each layer in the Diffusion Transformer to the control information by assessing the "ControlNet Relevance Score"-i.e., the impact of skipping each control layer on both the quality of generation and the control effectiveness during inference. Based on the strength of the relevance, we then tailor the positioning, parameter scale, and modeling capacity of the control layers to reduce unnecessary parameters and redundant computations. Additionally, to further improve efficiency, we replace the self-attention and FFN in the commonly used copy block with the carefully designed Two-Dimensional Shuffle Mixer (TDSM), enabling efficient implementation of both the token mixer and channel mixer. Both qualitative and quantitative experimental results demonstrate that our approach achieves superior performance with only 15% of the parameters and computational complexity compared to PixArt-delta. More examples are available at https://relactrl.github.io/RelaCtrl/.
- Abstract(参考訳): Diffusion Transformerはテキスト・ツー・イメージとテキスト・ツー・ビデオ生成において重要な役割を担っている。
しかし,既存の制御拡散変圧器法では,異なる変圧器層にまたがる制御情報の相互関係を考慮できないため,パラメータや計算上のオーバーヘッドが大きくなり,資源割り当ての効率の悪さに悩まされる。
そこで本稿では,Relevance-Guided Efficient Controllable GenerationフレームワークであるRelaCtrlを提案する。
まず,拡散変換器の各層と制御情報との関連性を評価するために,制御層をスキップした影響と推定時の制御効果の両面について,"ControlNet Relevance Score" の評価を行った。
関連性の強さに基づいて、不要なパラメータや冗長な計算を減らすために、制御層の位置決め、パラメータスケール、モデリング能力を調整します。
さらに効率を向上するため、よく使われるコピーブロックの自己注意とFFNを慎重に設計された2次元シャッフルミキサー(TDSM)に置き換え、トークンミキサーとチャネルミキサーの両方を効率的に実装する。
定性的および定量的な実験結果から,本手法は PixArt-delta と比較して, パラメータと計算複雑性の 15% しか得られず, 優れた性能を発揮することが示された。
その他の例はhttps://relactrl.github.io/RelaCtrl/で公開されている。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - RepControlNet: ControlNet Reparameterization [0.562479170374811]
RepControlNetは計算量を増やすことなく拡散モデルの制御可能な生成を実現する。
SD1.5とSDXLの両方で多数の実験を行い,提案したRepControlNetの有効性と有効性を示した。
論文 参考訳(メタデータ) (2024-08-17T16:21:51Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - Controllable Text Generation with Residual Memory Transformer [4.9329649616940205]
任意の時間ステップでCLMを生成するための,非侵襲的で軽量な制御プラグインを提案する。
提案されているプラグイン、すなわちResidual Memory Transformer (RMT)は、任意の種類の制御条件を受け入れることができるエンコーダとデコーダのセットアップを備えている。
各種制御タスクにおいて, 自動評価と人的評価の両面で, 広範囲な実験が実施されている。
論文 参考訳(メタデータ) (2023-09-28T08:13:33Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。