Fugu-MT 論文翻訳(概要): Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration

論文の概要: Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration

arxiv url: http://arxiv.org/abs/2505.11707v1
Date: Fri, 16 May 2025 21:27:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.794976
Title: Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration
Title（参考訳）: 注意すべきでないこと: 後訓練型DiT加速のための構造的詳細トケマージ
Authors: Haipeng Fang, Sheng Tang, Juan Cao, Enshuo Zhang, Fan Tang, Tong-Yee Lee,
Abstract要約: 本研究は,拡散過程を伴わない領域における不規則な特徴冗長性への参加という,新しい概念を提案する。我々は, 特徴冗長度の位置と度合いを, 構造的詳細記述に基づく分析を行った。 SDTMは,特徴冗長性を動的に圧縮する構造的詳細トークンマージ手法である。
参考スコア（独自算出の注目度）: 24.85624444212476
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion transformers have shown exceptional performance in visual generation but incur high computational costs. Token reduction techniques that compress models by sharing the denoising process among similar tokens have been introduced. However, existing approaches neglect the denoising priors of the diffusion models, leading to suboptimal acceleration and diminished image quality. This study proposes a novel concept: attend to prune feature redundancies in areas not attended by the diffusion process. We analyze the location and degree of feature redundancies based on the structure-then-detail denoising priors. Subsequently, we introduce SDTM, a structure-then-detail token merging approach that dynamically compresses feature redundancies. Specifically, we design dynamic visual token merging, compression ratio adjusting, and prompt reweighting for different stages. Served in a post-training way, the proposed method can be integrated seamlessly into any DiT architecture. Extensive experiments across various backbones, schedulers, and datasets showcase the superiority of our method, for example, it achieves 1.55 times acceleration with negligible impact on image quality. Project page: https://github.com/ICTMCG/SDTM.
Abstract（参考訳）: 拡散変換器は、視覚生成において例外的な性能を示すが、計算コストが高い。同様のトークン間でデノナイジングプロセスを共有することでモデルを圧縮するトークン還元技術が導入されている。しかし、既存の手法は拡散モデルの偏極前兆を無視し、最適以下の加速と画質の低下を招いた。本研究は,拡散過程を伴わない領域における不規則な特徴冗長性への参加という,新しい概念を提案する。我々は, 特徴冗長度の位置と度合いを, 構造的詳細記述に基づく分析を行った。次に,特徴冗長性を動的に圧縮するSDTMを導入する。具体的には、動的視覚トークンのマージ、圧縮比の調整、および異なるステージに対する即時再重み付けを設計する。トレーニング後,提案手法は任意のDiTアーキテクチャにシームレスに統合できる。様々なバックボーン、スケジューラ、データセットにわたる大規模な実験では、画像品質に無視できない影響で1.55倍の加速を達成している。プロジェクトページ:https://github.com/ICTMCG/SDTM。

関連論文リスト

VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training [53.09658039757408]
本稿では,効率的な拡散訓練のための軽量な固有ガイダンスフレームワークである textbfnamex を提案する。 nameは、拡散トランスフォーマーの中間潜時特徴を、軽量なプロジェクション層を介してVAE特徴と整列し、特徴アライメントロスによって教師される。実験により、バニラ拡散変圧器と比較して、名称が生成品質とトレーニング収束速度の両方を改善することが示された。
論文参考訳（メタデータ） (2026-01-25T13:22:38Z)
ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion [7.233066974580282]
テキストと画像の拡散モデルは、トレーニングの解像度を超える画像を生成する際に、しばしば劣化した性能を示す。最近のトレーニングフリーな手法は、この制限を緩和することができるが、かなりの計算を必要とする場合や、最近の拡散変換器モデルと互換性がない場合が多い。本研究では,事前学習した拡散モデルの解法を,追加の訓練なしに拡張するためのモデル非依存かつ高効率なフレームワークであるScaleDiffを提案する。
論文参考訳（メタデータ） (2025-10-29T17:17:32Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文参考訳（メタデータ） (2024-08-11T07:01:39Z)
Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文参考訳（メタデータ） (2024-06-10T11:00:26Z)
Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文参考訳（メタデータ） (2022-04-30T09:01:21Z)
Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文参考訳（メタデータ） (2021-12-08T13:02:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。