論文の概要: Pyramidal Patchification Flow for Visual Generation
- arxiv url: http://arxiv.org/abs/2506.23543v1
- Date: Mon, 30 Jun 2025 06:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.938752
- Title: Pyramidal Patchification Flow for Visual Generation
- Title(参考訳): 火力発電のための火力発電用火力発電流
- Authors: Hui Li, Baoyou Chen, Liwei Zhang, Jiaye Li, Jingdong Wang, Siyu Zhu,
- Abstract要約: 拡散変換器(DiT)はPatchifyを採用し、パッチ表現を線形射影を通してトークン表現にマッピングする。
大規模なパッチサイズは、高雑音時間ステップと低雑音時間ステップのための小さなパッチサイズに使用される。
スクラッチからトレーニングすることで、SiT-B/2よりも1.6タイム(2.0times$)の推論速度を達成し、2レベル(3レベル)のピラミッドのパッチ化を実現している。
- 参考スコア(独自算出の注目度): 23.474413313651432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers (DiTs) adopt Patchify, mapping patch representations to token representations through linear projections, to adjust the number of tokens input to DiT blocks and thus the computation cost. Instead of a single patch size for all the timesteps, we introduce a Pyramidal Patchification Flow (PPFlow) approach: Large patch sizes are used for high noise timesteps and small patch sizes for low noise timesteps; Linear projections are learned for each patch size; and Unpatchify is accordingly modified. Unlike Pyramidal Flow, our approach operates over full latent representations other than pyramid representations, and adopts the normal denoising process without requiring the renoising trick. We demonstrate the effectiveness of our approach through two training manners. Training from scratch achieves a $1.6\times$ ($2.0\times$) inference speed over SiT-B/2 for 2-level (3-level) pyramid patchification with slightly lower training FLOPs and similar image generation performance. Training from pretrained normal DiTs achieves even better performance with small training time. The code and checkpoint are at https://github.com/fudan-generative-vision/PPFlow.
- Abstract(参考訳): 拡散変換器(DiT)はPatchifyを採用し、パッチ表現を線形射影を通してトークン表現にマッピングし、DiTブロックに入力されるトークンの数を調整する。
大規模なパッチサイズは高ノイズのタイムステップと低ノイズのタイムステップに使用され、小さなパッチサイズは低ノイズのタイムステップに使われ、各パッチサイズに線形投影が学習され、Unpatchifyはそれに従って修正される。
ピラミッドフローとは異なり、我々の手法はピラミッド表現以外の完全な潜在表現を演算し、レノケーショントリックを必要とせずに通常のデノナイジングプロセスを採用する。
2つの訓練方法によるアプローチの有効性を実証する。
スクラッチからのトレーニングはSiT-B/2よりも1.6\times$$$2.0\times$)の推論速度を達成し、2レベル(3レベル)のピラミッドパッチで、FLOPと同様の画像生成性能をわずかに低下させる。
トレーニング済みの通常のDiTからのトレーニングは、少ないトレーニング時間でさらにパフォーマンスが向上する。
コードとチェックポイントはhttps://github.com/fudan-generative-vision/PPFlowにある。
関連論文リスト
- Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。
既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。
我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文 参考訳(メタデータ) (2025-05-29T17:50:34Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - Normalizing Flows are Capable Generative Models [48.31226028595099]
TarFlowはシンプルでスケーラブルなアーキテクチャで、高性能なNFモデルを実現する。
エンドツーエンドのトレーニングは簡単で、ピクセルを直接モデリングして生成することができる。
TarFlowは、画像の確率推定に新たな最先端結果を設定し、以前のベストメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-12-09T09:28:06Z) - 2D3D-MATR: 2D-3D Matching Transformer for Detection-free Registration
between Images and Point Clouds [38.425876064671435]
本稿では2D3D-MATRを提案する。
提案手法では,入力画像のダウンサンプリングされたパッチと点雲との間の粗い対応をまず計算する。
パッチマッチングにおけるスケールのあいまいさを解決するため,各画像パッチに対してマルチスケールピラミッドを構築し,最適なマッチング画像パッチを適切な解像度で検出する。
論文 参考訳(メタデータ) (2023-08-10T16:10:54Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Smooth-Reduce: Leveraging Patches for Improved Certified Robustness [100.28947222215463]
本研究では,Smooth-Reduce の学習自由な修正スムース化手法を提案する。
提案アルゴリズムは,入力画像から抽出した重なり合うパッチを分類し,予測ロジットを集約して,入力周辺の半径が大きいことを証明する。
我々は,このような証明書の理論的保証を提供し,他のランダムな平滑化手法に対する顕著な改善を実証的に示す。
論文 参考訳(メタデータ) (2022-05-12T15:26:20Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。