論文の概要: ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.02084v1
- Date: Mon, 4 Mar 2024 14:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:26:46.952067
- Title: ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
- Title(参考訳): resadapter: 拡散モデルのためのドメイン一貫性解決アダプタ
- Authors: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia
Li, Xuefeng Xiao, Min Zheng, Lean Fu
- Abstract要約: ResAdapter(ResAdapter)は、非制限解像度とアスペクト比のイメージを生成するために拡散モデル用に設計されたドメイン一貫性アダプタである。
ResAdapterは、パーソナライズされた拡散モデルで解像度のない画像を生成する。
0.5Mしか持たないResAdapterは任意の拡散モデルに対してフレキシブルな解像度で画像を処理できることを示した。
- 参考スコア(独自算出の注目度): 15.936643445065798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancement in text-to-image models (e.g., Stable Diffusion) and
corresponding personalized technologies (e.g., DreamBooth and LoRA) enables
individuals to generate high-quality and imaginative images. However, they
often suffer from limitations when generating images with resolutions outside
of their trained domain. To overcome this limitation, we present the Resolution
Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models
to generate images with unrestricted resolutions and aspect ratios. Unlike
other multi-resolution generation methods that process images of static
resolution with complex post-process operations, ResAdapter directly generates
images with the dynamical resolution. Especially, after learning a deep
understanding of pure resolution priors, ResAdapter trained on the general
dataset, generates resolution-free images with personalized diffusion models
while preserving their original style domain. Comprehensive experiments
demonstrate that ResAdapter with only 0.5M can process images with flexible
resolutions for arbitrary diffusion models. More extended experiments
demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet,
IP-Adapter and LCM-LoRA) for image generation across a broad range of
resolutions, and can be integrated into other multi-resolution model (e.g.,
ElasticDiffusion) for efficiently generating higher-resolution images. Project
link is https://res-adapter.github.io
- Abstract(参考訳): 最近のテキストから画像へのモデル(例えば安定拡散)と対応するパーソナライズされた技術(例えばdreamboothやlora)の進歩により、個人は高品質で想像力に富んだ画像を生成することができる。
しかし、訓練されたドメイン外の解像度で画像を生成する場合、しばしば制限に悩まされる。
この制限を克服するために,拡散モデル用に設計されたドメイン一貫性のあるアダプタであるresadapter(resadapter)を提案する。
静的解像度の画像を複雑な後処理で処理する他のマルチレゾリューション生成法とは異なり、resadapterは動的解像度を持つ画像を直接生成する。
特に、純粋な解像度の優先順位を深く理解した後、一般的なデータセットでトレーニングされたresadapterは、オリジナルのスタイルドメインを維持しながら、パーソナライズされた拡散モデルを持つ解像度フリーな画像を生成する。
包括的な実験により、0.5mのresadapterは任意の拡散モデルに対して柔軟な解像度で画像を処理できることが示されている。
さらなる実験により、ResAdapterは他のモジュール(例えば、ControlNet、IP-Adapter、LCM-LoRA)と互換性があり、高解像度画像を効率的に生成する他のマルチ解像度モデル(例えば、ElasticDiffusion)に統合できることが示されている。
プロジェクトリンクはhttps://res-adapter.github.io
関連論文リスト
- ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。
我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。
ZoomLDMは、すべてのスケールにわたる最先端の画像生成品質を実現し、大きな画像全体のサムネイルを生成するデータスカース設定に優れています。
論文 参考訳(メタデータ) (2024-11-25T22:39:22Z) - FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning [38.560064789022704]
MegaFusionは、既存の拡散ベースのテキスト画像モデルを拡張して、効率的な高解像度生成を実現している。
我々は、異なる解像度でデノナイジングプロセスをブリッジするために、革新的なトランケートとリレー戦略を採用しています。
拡張畳み込みとノイズ再スケジューリングを統合することで、より高分解能のモデルに先行するモデルをさらに適応させる。
論文 参考訳(メタデータ) (2024-08-20T16:53:34Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization [23.723573179119228]
本稿では,高機能なReal-ISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
画素単位の画像局所構造を知覚する拡散モデルを実現するために、画素対応クロスアテンションモジュールを導入する。
補正可能なノイズスケジュールを導入し、画像復元結果をさらに改善する。
論文 参考訳(メタデータ) (2023-08-28T10:15:57Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Resolution based Feature Distillation for Cross Resolution Person
Re-Identification [17.86505685442293]
人物の再識別(re-id)は、異なるカメラビューで同一人物の画像を取得することを目的としている。
解像度のミスマッチは、興味のある人とカメラの間の距離が異なるため起こる。
本稿では,複数の解像度の問題を克服するために,分解能に基づく特徴蒸留(RFD)アプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T11:07:59Z) - Low Resolution Information Also Matters: Learning Multi-Resolution
Representations for Person Re-Identification [37.01666917620271]
クロスレゾリューションされた人物のリIDは、オーバーラップされていないカメラから撮影した人物の画像をマッチングすることを目的としている。
emphtextbfMulti-Resolution textbfRepresentations textbfJoint textbfLearning (textbfMRJL)
提案手法は,分解能再構成ネットワーク(RRN)とDFFN(Dual Feature Fusion Network)から構成される。
論文 参考訳(メタデータ) (2021-05-26T16:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。