Fugu-MT 論文翻訳(概要): FiT: Flexible Vision Transformer for Diffusion Model

論文の概要: FiT: Flexible Vision Transformer for Diffusion Model

arxiv url: http://arxiv.org/abs/2402.12376v4
Date: Tue, 15 Oct 2024 02:51:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.892938
Title: FiT: Flexible Vision Transformer for Diffusion Model
Title（参考訳）: FiT:拡散モデルのためのフレキシブル・ビジョン・トランス
Authors: Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai,
Abstract要約: 本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
参考スコア（独自算出の注目度）: 81.85667773832279
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Nature is infinitely resolution-free. In the context of this reality, existing diffusion models, such as Diffusion Transformers, often face challenges when processing image resolutions outside of their trained domain. To overcome this limitation, we present the Flexible Vision Transformer (FiT), a transformer architecture specifically designed for generating images with unrestricted resolutions and aspect ratios. Unlike traditional methods that perceive images as static-resolution grids, FiT conceptualizes images as sequences of dynamically-sized tokens. This perspective enables a flexible training strategy that effortlessly adapts to diverse aspect ratios during both training and inference phases, thus promoting resolution generalization and eliminating biases induced by image cropping. Enhanced by a meticulously adjusted network structure and the integration of training-free extrapolation techniques, FiT exhibits remarkable flexibility in resolution extrapolation generation. Comprehensive experiments demonstrate the exceptional performance of FiT across a broad range of resolutions, showcasing its effectiveness both within and beyond its training resolution distribution. Repository available at https://github.com/whlzy/FiT.
Abstract（参考訳）: 自然は無限に分解できない。この現実の文脈では、Diffusion Transformersのような既存の拡散モデルは、訓練されたドメインの外で画像解像度を処理する場合、しばしば課題に直面します。この制限を克服するために、制限のない解像度とアスペクト比で画像を生成するために特別に設計された変換器アーキテクチャであるフレキシブル・ビジョン・トランス (FiT) を提案する。静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。この視点は、トレーニングと推論フェーズの両方において、多彩なアスペクト比に努力せずに適応する柔軟なトレーニング戦略を可能にし、解像度の一般化を促進し、画像トリミングによって引き起こされるバイアスを取り除く。厳密に調整されたネットワーク構造とトレーニング不要な外挿技術の統合によって強化されたFiTは、分解能外挿生成において顕著な柔軟性を示す。総合的な実験は、FiTの様々な解像度における異常な性能を実証し、その効果をトレーニングの解像度分布内外の両方で示している。リポジトリはhttps://github.com/whlzy/FiT.comで入手できる。

関連論文リスト

F2T2-HiT: A U-Shaped FFT Transformer and Hierarchical Transformer for Reflection Removal [16.539156634006236]
シングルイメージリフレクション除去(SIRR)技術は,背景からの不要な反射を除去することにより,画像処理において重要な役割を担っている。これらの反射は、しばしばガラスの表面から撮影された写真によって引き起こされるが、画質を著しく劣化させる可能性がある。本稿では,U字型高速フーリエ変換器と階層変換器アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-06-05T18:12:36Z)
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。 FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文参考訳（メタデータ） (2024-10-17T15:51:49Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。 TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文参考訳（メタデータ） (2023-07-24T02:50:44Z)
Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文参考訳（メタデータ） (2023-05-30T04:09:47Z)
Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。 ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文参考訳（メタデータ） (2021-05-21T17:59:18Z)
Diverse Image Inpainting with Bidirectional and Autoregressive Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。 BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文参考訳（メタデータ） (2021-04-26T03:52:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。