論文の概要: FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model
- arxiv url: http://arxiv.org/abs/2402.12376v3
- Date: Thu, 10 Oct 2024 13:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:29.818594
- Title: FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model
- Title(参考訳): FiTv2: 拡散モデルのためのスケーラブルでフレキシブルな視覚変換器
- Authors: Zidong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, Lei Bai,
- Abstract要約: 本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
- 参考スコア(独自算出の注目度): 80.69865295743149
- License:
- Abstract: Nature is infinitely resolution-free. In the context of this reality, existing diffusion models, such as Diffusion Transformers, often face challenges when processing image resolutions outside of their trained domain. To address this limitation, we conceptualize images as sequences of tokens with dynamic sizes, rather than traditional methods that perceive images as fixed-resolution grids. This perspective enables a flexible training strategy that seamlessly accommodates various aspect ratios during both training and inference, thus promoting resolution generalization and eliminating biases introduced by image cropping. On this basis, we present the Flexible Vision Transformer (FiT), a transformer architecture specifically designed for generating images with unrestricted resolutions and aspect ratios. We further upgrade the FiT to FiTv2 with several innovative designs, includingthe Query-Key vector normalization, the AdaLN-LoRA module, a rectified flow scheduler, and a Logit-Normal sampler. Enhanced by a meticulously adjusted network structure, FiTv2 exhibits 2x convergence speed of FiT. When incorporating advanced training-free extrapolation techniques, FiTv2 demonstrates remarkable adaptability in both resolution extrapolation and diverse resolution generation. Additionally, our exploration of the scalability of the FiTv2 model reveals that larger models exhibit better computational efficiency. Furthermore, we introduce an efficient post-training strategy to adapt a pre-trained model for the high-resolution generation. Comprehensive experiments demonstrate the exceptional performance of FiTv2 across a broad range of resolutions. We have released all the codes and models at https://github.com/whlzy/FiT to promote the exploration of diffusion transformer models for arbitrary-resolution image generation.
- Abstract(参考訳): 自然は無限に分解できない。
この現実の文脈では、Diffusion Transformersのような既存の拡散モデルは、訓練されたドメインの外で画像解像度を処理する場合、しばしば課題に直面します。
この制限に対処するために、画像は固定解像度グリッドとして知覚される従来の方法ではなく、動的サイズのトークンのシーケンスとして概念化する。
この視点は、トレーニングと推論の間、様々なアスペクト比をシームレスに適合させるフレキシブルなトレーニング戦略を可能にする。
本研究では,非制限解像度とアスペクト比で画像を生成するためのトランスアーキテクチャであるフレキシブル・ビジョン・トランス (FiT) を提案する。
さらに我々は、Query-Keyベクトル正規化、AdaLN-LoRAモジュール、修正フロースケジューラ、Logit-Normalサンプルラなど、いくつかの革新的な設計でFiTをFiTv2にアップグレードする。
微調整されたネットワーク構造によって強化されたFiTv2は、FiTの2倍の収束速度を示す。
高度なトレーニングフリーな外挿技術を導入すると、FiTv2は分解能外挿と多彩な分解能生成の両方において顕著な適応性を示す。
さらに、FiTv2モデルのスケーラビリティを探索した結果、より大きなモデルの方が計算効率が良いことが判明した。
さらに,高分解能生成のための事前学習モデルを適用するための効率的なポストトレーニング戦略を導入する。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
我々は、任意の解像度の画像生成のための拡散トランスフォーマーモデルの探索を促進するために、https://github.com/whlzy/FiTで全てのコードとモデルをリリースした。
関連論文リスト
- FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。
TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。
実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文 参考訳(メタデータ) (2023-07-24T02:50:44Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。