論文の概要: Token Pruning for In-Context Generation in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.01609v1
- Date: Mon, 02 Feb 2026 03:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.891832
- Title: Token Pruning for In-Context Generation in Diffusion Transformers
- Title(参考訳): 拡散変圧器のインコンテクスト生成のためのトケンプルーニング
- Authors: Junqing Lin, Xingyu Zheng, Pei Cheng, Bin Fu, Jingwei Sun, Guangzhong Sun,
- Abstract要約: インコンテキスト生成は参照例を通して制御可能な画像・画像生成を可能にすることで拡散変換器(DiT)を大幅に強化する。
既存のトークン削減技術は、主にテキストと画像の合成に適したもので、このパラダイムでは不足している。
In-context generation in-context generation in DiTs.ToPiは、トレーニング不要なトークンプルーニングフレームワークである。
- 参考スコア(独自算出の注目度): 20.121758465381053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context generation significantly enhances Diffusion Transformers (DiTs) by enabling controllable image-to-image generation through reference examples. However, the resulting input concatenation drastically increases sequence length, creating a substantial computational bottleneck. Existing token reduction techniques, primarily tailored for text-to-image synthesis, fall short in this paradigm as they apply uniform reduction strategies, overlooking the inherent role asymmetry between reference contexts and target latents across spatial, temporal, and functional dimensions. To bridge this gap, we introduce ToPi, a training-free token pruning framework tailored for in-context generation in DiTs. Specifically, ToPi utilizes offline calibration-driven sensitivity analysis to identify pivotal attention layers, serving as a robust proxy for redundancy estimation. Leveraging these layers, we derive a novel influence metric to quantify the contribution of each context token for selective pruning, coupled with a temporal update strategy that adapts to the evolving diffusion trajectory. Empirical evaluations demonstrate that ToPi can achieve over 30\% speedup in inference while maintaining structural fidelity and visual consistency across complex image generation tasks.
- Abstract(参考訳): インコンテキスト生成は参照例を通して制御可能な画像・画像生成を可能にすることで拡散変換器(DiT)を大幅に強化する。
しかし、結果の入力連結によってシーケンス長が劇的に増加し、かなりの計算ボトルネックが生じる。
既存のトークン還元技術は、主にテキストと画像の合成に適したもので、一様還元戦略を適用し、空間的、時間的、機能的な次元にわたって、参照コンテキストとターゲット潜伏者の間の固有の役割非対称性を見越すと、このパラダイムでは不足する。
このギャップを埋めるために、トレーニング不要なトークン解析フレームワークであるToPiを紹介します。
具体的には、オフラインキャリブレーション駆動の感度分析を使用して、重要な注意層を識別し、冗長性推定の堅牢なプロキシとして機能する。
これらのレイヤを活用して、選択的プルーニングのための各コンテキストトークンの寄与を定量化するための新しい影響指標と、進化する拡散軌道に適応する時間的更新戦略を導出する。
実験的な評価により、ToPiは複雑な画像生成タスクにおける構造的忠実さと視覚的一貫性を維持しながら、推論において30倍以上のスピードアップを達成することができることが示された。
関連論文リスト
- Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers [10.251154683874033]
拡散変換器(DiT)は画像生成において例外的な性能を示したが、その大きなパラメータ数は計算コストが高い。
提案するPlugable Pruning with Contiguous Layer Distillation (PPCL)は,DiTアーキテクチャ用に設計されたフレキシブルな構造化プルーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T08:53:07Z) - Todyformer: Towards Holistic Dynamic Graph Transformers with
Structure-Aware Tokenization [6.799413002613627]
Todyformerは、動的グラフに適したトランスフォーマーベースのニューラルネットワークである。
メッセージパッシングニューラルネットワーク(MPNN)のローカルエンコーディング能力とトランスフォーマーのグローバルエンコーディング能力を統合する。
Todyformerは、ダウンストリームタスクの最先端メソッドよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T23:05:30Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Entropy Transformer Networks: A Learning Approach via Tangent Bundle
Data Manifold [8.893886200299228]
本稿では,CNNアーキテクチャの設計における画像変換の高精度かつ高速なアプローチについて述べる。
データ多様体分布を補間する新しいエントロピーSTN(ESTN)を提案する。
挑戦的なベンチマークの実験は、提案されたESTNがコンピュータビジョンタスクの範囲で予測精度を向上させることを示している。
論文 参考訳(メタデータ) (2023-07-24T04:21:51Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。