論文の概要: ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.02084v2
- Date: Sun, 09 Mar 2025 09:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:42:02.014611
- Title: ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
- Title(参考訳): ResAdapter:拡散モデルのためのドメイン一貫性分解能アダプタ
- Authors: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu,
- Abstract要約: ResAdapter(ResAdapter)は、非制限解像度とアスペクト比のイメージを生成するために拡散モデル用に設計されたドメイン一貫性アダプタである。
ResAdapterは、パーソナライズされた拡散モデルで解像度のない画像を生成する。
0.5Mしか持たないResAdapterは任意の拡散モデルに対してフレキシブルな解像度で画像を処理できることを示した。
- 参考スコア(独自算出の注目度): 15.423455968254613
- License:
- Abstract: Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io
- Abstract(参考訳): 近年のテキスト・ツー・イメージ・モデル(例えば、安定拡散)とそれに対応するパーソナライズ技術(例えば、ドリームブース、LoRA)の進歩により、個人は高品質で想像力のある画像を生成することができる。
しかし、訓練されたドメイン外の解像度で画像を生成する場合、しばしば制限に悩まされる。
この制限を克服するために、拡散モデル用に設計された領域整合型アダプタであるResAdapter(ResAdapter)を提案する。
複雑な後処理を伴う静的解像度の画像を処理する他のマルチ解像度生成方法とは異なり、ResAdapterは動的解像度の画像を直接生成する。
特に、純粋な解像度の事前を深く理解した後、一般的なデータセットに基づいてトレーニングされたResAdapterは、元のスタイルドメインを維持しながら、パーソナライズされた拡散モデルを備えた解像度のない画像を生成する。
総合的な実験により、0.5Mしか持たないResAdapterは任意の拡散モデルに対して柔軟な解像度で画像を処理できることが示されている。
さらなる実験により、ResAdapterは他のモジュール(例えば、ControlNet、IP-Adapter、LCM-LoRA)と互換性があり、高解像度画像を効率的に生成する他のマルチ解像度モデル(例えば、ElasticDiffusion)に統合できることが示されている。
プロジェクトリンクはhttps://res-adapter.github.io
関連論文リスト
- MV-Adapter: Multi-view Consistent Image Generation Made Easy [60.93957644923608]
既存のマルチビュー画像生成手法は、事前訓練されたテキスト・ツー・イメージモデルに侵入的な修正を加えることが多い。
マルチビュー画像生成のための最初のアダプタと,汎用的なプラグアンドプレイアダプタであるMVAdapterを提案する。
論文 参考訳(メタデータ) (2024-12-04T18:48:20Z) - FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning [38.560064789022704]
MegaFusionは、既存の拡散ベースのテキスト画像モデルを拡張して、効率的な高解像度生成を実現している。
我々は、異なる解像度でデノナイジングプロセスをブリッジするために、革新的なトランケートとリレー戦略を採用しています。
拡張畳み込みとノイズ再スケジューリングを統合することで、より高分解能のモデルに先行するモデルをさらに適応させる。
論文 参考訳(メタデータ) (2024-08-20T16:53:34Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization [23.723573179119228]
本稿では,高機能なReal-ISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
画素単位の画像局所構造を知覚する拡散モデルを実現するために、画素対応クロスアテンションモジュールを導入する。
補正可能なノイズスケジュールを導入し、画像復元結果をさらに改善する。
論文 参考訳(メタデータ) (2023-08-28T10:15:57Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Resolution based Feature Distillation for Cross Resolution Person
Re-Identification [17.86505685442293]
人物の再識別(re-id)は、異なるカメラビューで同一人物の画像を取得することを目的としている。
解像度のミスマッチは、興味のある人とカメラの間の距離が異なるため起こる。
本稿では,複数の解像度の問題を克服するために,分解能に基づく特徴蒸留(RFD)アプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T11:07:59Z) - Low Resolution Information Also Matters: Learning Multi-Resolution
Representations for Person Re-Identification [37.01666917620271]
クロスレゾリューションされた人物のリIDは、オーバーラップされていないカメラから撮影した人物の画像をマッチングすることを目的としている。
emphtextbfMulti-Resolution textbfRepresentations textbfJoint textbfLearning (textbfMRJL)
提案手法は,分解能再構成ネットワーク(RRN)とDFFN(Dual Feature Fusion Network)から構成される。
論文 参考訳(メタデータ) (2021-05-26T16:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。