Fugu-MT 論文翻訳(概要): Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints

論文の概要: Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints

arxiv url: http://arxiv.org/abs/2411.17616v3
Date: Fri, 28 Mar 2025 16:15:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 15:06:05.955641
Title: Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints
Title（参考訳）: スペクトル制約による長いスキープ接続による安定化・効率的な拡散変換器の実現に向けて
Authors: Guanjie Chen, Xinyu Zhao, Yucheng Zhou, Xiaoye Qu, Tianlong Chen, Yu Cheng,
Abstract要約: Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。 DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。本研究では,Long-Skip-Connections (LSC) で拡張された新しい DiT バリアントである Skip-DiT を提案する。
参考スコア（独自算出の注目度）: 51.83081671798784
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion Transformers (DiT) have emerged as a powerful architecture for image and video generation, offering superior quality and scalability. However, their practical application suffers from inherent dynamic feature instability, leading to error amplification during cached inference. Through systematic analysis, we identify the absence of long-range feature preservation mechanisms as the root cause of unstable feature propagation and perturbation sensitivity. To this end, we propose Skip-DiT, a novel DiT variant enhanced with Long-Skip-Connections (LSCs) - the key efficiency component in U-Nets. Theoretical spectral norm and visualization analysis demonstrate how LSCs stabilize feature dynamics. Skip-DiT architecture and its stabilized dynamic feature enable an efficient statical caching mechanism that reuses deep features across timesteps while updating shallow components. Extensive experiments across image and video generation tasks demonstrate that Skip-DiT achieves: (1) 4.4 times training acceleration and faster convergence, (2) 1.5-2 times inference acceleration without quality loss and high fidelity to original output, outperforming existing DiT caching methods across various quantitative metrics. Our findings establish long-skip connections as critical architectural components for training stable and efficient diffusion transformers.
Abstract（参考訳）: Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。しかし、それらの実用アプリケーションは固有の動的特徴不安定性に悩まされ、キャッシュされた推論中にエラーを増幅する。系統的な解析により、不安定な特徴伝播と摂動感度の根本原因として長距離特徴保存機構が欠如していることが判明した。そこで我々は,Long-Skip-Connections (LSC) で拡張された新しい DiT バリアントである Skip-DiT を提案する。理論スペクトルノルムと可視化解析は、LCCが特徴力学をどのように安定化するかを示す。 Skip-DiTアーキテクチャとその安定化された動的機能は、浅いコンポーネントを更新しながら、タイムステップにわたって深い機能を再利用する効率的な静的キャッシングメカニズムを可能にする。 1)トレーニングアクセラレーションと高速収束の4.4倍、(2)品質損失のない1.5-2倍の推論アクセラレーション、および元の出力に対する高い忠実度、そして既存のDiTキャッシング手法を様々なメトリクスで上回る。本研究は, 安定かつ効率的な拡散変圧器を訓練するための重要なアーキテクチャ要素として, 長軸接続が確立された。

関連論文リスト

Electromyography-Based Gesture Recognition: Hierarchical Feature Extraction for Enhanced Spatial-Temporal Dynamics [0.7083699704958353]
本稿では, 時間的時間的特徴抽出手法として, 軽量な圧縮励起深層学習手法を提案する。提案したモデルは、Ninapro DB2、DB4、DB5データセットでそれぞれ96.41%、92.40%、93.34%の精度でテストされた。
論文参考訳（メタデータ） (2025-04-04T07:11:12Z)
BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers [39.08730113749482]
DiT(Diffusion Transformer)は、低推論速度に関連する課題に直面し続けている。我々は、DiTを加速するために、隣接する時間ステップにおける特徴的類似性を探求する、トレーニング不要のアプローチであるBlockDanceを提案する。インスタンス固有のアクセラレーションに適した軽量な意思決定ネットワークであるBlockDance-Adaについても紹介する。
論文参考訳（メタデータ） (2025-03-20T08:07:31Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
Q&C: When Quantization Meets Cache in Efficient Image Generation [24.783679431414686]
拡散変換器(DiT)の量子化とキャッシュ機構の組み合わせは簡単ではない。本稿では,上記の課題に対処してハイブリッド加速法を提案する。競合生成能力を保ちながら,DiTsを12.7倍高速化した。
論文参考訳（メタデータ） (2025-03-04T11:19:02Z)
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文参考訳（メタデータ） (2024-11-15T16:24:02Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文参考訳（メタデータ） (2024-08-04T13:23:18Z)
$Δ$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers [13.433352602762511]
トレーニング不要な推論アクセラレーションフレームワークであるDelta$-DiTを提案する。 $Delta$-DiTは、設計されたキャッシュ機構を使用して、初期サンプリングステージの後方DiTブロックと後期ステージの前方DiTブロックを高速化する。 PIXART-$alpha$とDiT-XLの実験は、$Delta$-DiTが20ステップ世代で1.6倍のスピードアップを達成できることを示した。
論文参考訳（メタデータ） (2024-06-03T09:10:44Z)
PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。 PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文参考訳（メタデータ） (2024-05-25T02:02:08Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-12-15T08:46:43Z)
Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文参考訳（メタデータ） (2023-11-20T17:35:44Z)
CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文参考訳（メタデータ） (2023-09-27T16:12:07Z)
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。 Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文参考訳（メタデータ） (2023-04-17T17:57:06Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。 DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文参考訳（メタデータ） (2021-10-10T18:04:59Z)
Feedback-induced instabilities and dynamics in the Jaynes-Cummings model [62.997667081978825]
時間遅延コヒーレントフィードバックを受けるJaynes-Cummingsモデルのコヒーレンスと定常状態特性について検討する。導入されたフィードバックは、システムの動的応答と定常量子特性を質的に修正する。
論文参考訳（メタデータ） (2020-06-20T10:07:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。