論文の概要: Rethinking Token Reduction for Diffusion Models via Output-Similarity-Awareness
- arxiv url: http://arxiv.org/abs/2605.22011v1
- Date: Thu, 21 May 2026 05:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.103977
- Title: Rethinking Token Reduction for Diffusion Models via Output-Similarity-Awareness
- Title(参考訳): 出力相似性認識による拡散モデルの再検討
- Authors: Hangyeol Lee, Hyojeong Lee, Joo-Young Kim,
- Abstract要約: 拡散変換器(DiT)はより優れた画像生成品質を実現するが、トークン数に対して2次計算の複雑さに悩まされる。
出力中心のトークン還元に焦点を移す新しいTRパラダイムであるDiToを提案する。
実験により、DiToは既存のTR法よりも1.6-3.9dB高いPSNRを同等のスピードアップで一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 2.5966966127729454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) achieve superior image generation quality but suffer from quadratic computational complexity relative to token count. While various token reduction (TR) methods have been proposed to mitigate this cost, they overlook the primary objective of generative models: minimizing recovery error, which requires reflecting output token similarity. They rely solely on input token similarity inherited from reduction-only ViT paradigms, leading to a fundamental misalignment with this objective. To bridge this gap, we propose DiTo, a novel TR paradigm that shifts the focus toward output-centric token reduction. Based on the observation that output token similarity is consistently preserved across adjacent timesteps, DiTo utilizes prior-step similarities as an effective proxy to establish token correspondences at a Matching timestep, which are then reused across multiple subsequent Reduction timesteps. To optimize this interleaved scheduling, we propose Pair Match Ratio (PMR)-guided Interval Scheduling to determine the optimal matching frequency. Furthermore, to mitigate localized approximation errors and resulting blocking artifacts caused by repeated reuse, we propose Frequency-aware Token Matching by incorporating a selection-frequency penalty. Extensive experiments demonstrate that DiTo consistently outperforms existing TR methods with 1.6-3.9 dB higher PSNR at comparable speedups, achieving a superior Pareto frontier.
- Abstract(参考訳): 拡散変換器(DiT)はより優れた画像生成品質を実現するが、トークン数に対して2次計算の複雑さに悩まされる。
このコストを軽減するために様々なトークン削減(TR)法が提案されているが、彼らは生成モデルの主目的を見落としている。
それらは、還元専用ViTパラダイムから継承された入力トークンの類似性にのみ依存しており、この目的に対する根本的なミスアライメントにつながっている。
このギャップを埋めるために、出力中心のトークン還元に焦点を移す新しいTRパラダイムであるDiToを提案する。
出力トークンの類似性が隣接するタイムステップ間で一貫して維持されるという観察に基づいて、DiToは事前ステップの類似性を効果的なプロキシとして利用し、マッチングタイムステップでトークン対応を確立する。
このインターリーブスケジューリングを最適化するために、最適マッチング周波数を決定するためにPair Match Ratio (PMR)誘導区間スケジューリングを提案する。
さらに、局所的な近似誤差を軽減し、繰り返し再利用によって生じるブロッキングアーティファクトを解消するために、選択頻度のペナルティを取り入れた周波数対応のトークンマッチングを提案する。
大規模な実験により、DiToは既存のTR法よりも1.6-3.9dB高いPSNRを同等の速度で達成し、優れたパレートフロンティアを達成している。
関連論文リスト
- RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models [24.3914653184824]
LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。
既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。
本稿では,累積的視覚トークンプルーニングと遅延修復機構を統合した一貫性表現プルーナを提案する。
論文 参考訳(メタデータ) (2026-04-04T13:31:45Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Fractional Correspondence Framework in Detection Transformer [13.388933240897492]
Detection Transformer (DETR) はオブジェクト検出タスクのマッチングプロセスを大幅に単純化した。
このアルゴリズムは、予測された有界箱とトレーニング中の接地的アノテーションとの最適な1対1マッチングを容易にする。
本稿では,予測と地上の真実を整合させるコストを捉え,最も正確な対応を見つけるためのフレキシブルマッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:29:20Z) - Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model [2.580765958706854]
拡散モデルは高い計算コストと遅い推論によって妨げられる。
そのようなアプローチの1つは、トークンマージ(ToMe)として知られる自己アテンションに供給されるトークンの数を減らすことに焦点を当てている。
論文 参考訳(メタデータ) (2025-01-01T20:16:27Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。