Fugu-MT 論文翻訳(概要): ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

論文の概要: ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

arxiv url: http://arxiv.org/abs/2403.02084v1
Date: Mon, 4 Mar 2024 14:36:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 18:26:46.952067
Title: ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
Title（参考訳）: resadapter: 拡散モデルのためのドメイン一貫性解決アダプタ
Authors: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
Abstract要約: ResAdapter(ResAdapter)は、非制限解像度とアスペクト比のイメージを生成するために拡散モデル用に設計されたドメイン一貫性アダプタである。 ResAdapterは、パーソナライズされた拡散モデルで解像度のない画像を生成する。 0.5Mしか持たないResAdapterは任意の拡散モデルに対してフレキシブルな解像度で画像を処理できることを示した。
参考スコア（独自算出の注目度）: 15.936643445065798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io
Abstract（参考訳）: 最近のテキストから画像へのモデル(例えば安定拡散)と対応するパーソナライズされた技術(例えばdreamboothやlora)の進歩により、個人は高品質で想像力に富んだ画像を生成することができる。しかし、訓練されたドメイン外の解像度で画像を生成する場合、しばしば制限に悩まされる。この制限を克服するために,拡散モデル用に設計されたドメイン一貫性のあるアダプタであるresadapter(resadapter)を提案する。静的解像度の画像を複雑な後処理で処理する他のマルチレゾリューション生成法とは異なり、resadapterは動的解像度を持つ画像を直接生成する。特に、純粋な解像度の優先順位を深く理解した後、一般的なデータセットでトレーニングされたresadapterは、オリジナルのスタイルドメインを維持しながら、パーソナライズされた拡散モデルを持つ解像度フリーな画像を生成する。包括的な実験により、0.5mのresadapterは任意の拡散モデルに対して柔軟な解像度で画像を処理できることが示されている。さらなる実験により、ResAdapterは他のモジュール(例えば、ControlNet、IP-Adapter、LCM-LoRA)と互換性があり、高解像度画像を効率的に生成する他のマルチ解像度モデル(例えば、ElasticDiffusion)に統合できることが示されている。プロジェクトリンクはhttps://res-adapter.github.io

関連論文リスト

InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis [51.81849724354083]
現在の拡散モデルでは、解像度で計算要求が2倍に増加し、4K画像生成が100秒以上遅れる。本稿では, 任意の解像度画像を1ステップ生成器を用いて, コンパクトなラテントで復号する手法を提案する。 InfGenは、4K画像生成時間を10秒未満にカットしながら、任意の高解像度の時代に多くのモデルを改善することができる。
論文参考訳（メタデータ） (2025-09-12T17:48:57Z)
MV-Adapter: Multi-view Consistent Image Generation Made Easy [60.93957644923608]
既存のマルチビュー画像生成手法は、事前訓練されたテキスト・ツー・イメージモデルに侵入的な修正を加えることが多い。マルチビュー画像生成のための最初のアダプタと,汎用的なプラグアンドプレイアダプタであるMVAdapterを提案する。
論文参考訳（メタデータ） (2024-12-04T18:48:20Z)
ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。 ZoomLDMは、すべてのスケールにわたる最先端の画像生成品質を実現し、大きな画像全体のサムネイルを生成するデータスカース設定に優れています。
論文参考訳（メタデータ） (2024-11-25T22:39:22Z)
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。 FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文参考訳（メタデータ） (2024-10-17T15:51:49Z)
MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning [38.560064789022704]
MegaFusionは、既存の拡散ベースのテキスト画像モデルを拡張して、効率的な高解像度生成を実現している。我々は、異なる解像度でデノナイジングプロセスをブリッジするために、革新的なトランケートとリレー戦略を採用しています。拡張畳み込みとノイズ再スケジューリングを統合することで、より高分解能のモデルに先行するモデルをさらに適応させる。
論文参考訳（メタデータ） (2024-08-20T16:53:34Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文参考訳（メタデータ） (2024-02-19T18:59:07Z)
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文参考訳（メタデータ） (2024-02-16T07:48:35Z)
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文参考訳（メタデータ） (2023-10-11T17:52:39Z)
Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization [23.723573179119228]
本稿では,高機能なReal-ISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。画素単位の画像局所構造を知覚する拡散モデルを実現するために、画素対応クロスアテンションモジュールを導入する。補正可能なノイズスケジュールを導入し、画像復元結果をさらに改善する。
論文参考訳（メタデータ） (2023-08-28T10:15:57Z)
Learning Resolution-Adaptive Representations for Cross-Resolution Person Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文参考訳（メタデータ） (2022-07-09T03:49:51Z)
Resolution based Feature Distillation for Cross Resolution Person Re-Identification [17.86505685442293]
人物の再識別(re-id)は、異なるカメラビューで同一人物の画像を取得することを目的としている。解像度のミスマッチは、興味のある人とカメラの間の距離が異なるため起こる。本稿では,複数の解像度の問題を克服するために,分解能に基づく特徴蒸留(RFD)アプローチを提案する。
論文参考訳（メタデータ） (2021-09-16T11:07:59Z)
Low Resolution Information Also Matters: Learning Multi-Resolution Representations for Person Re-Identification [37.01666917620271]
クロスレゾリューションされた人物のリIDは、オーバーラップされていないカメラから撮影した人物の画像をマッチングすることを目的としている。 emphtextbfMulti-Resolution textbfRepresentations textbfJoint textbfLearning (textbfMRJL) 提案手法は,分解能再構成ネットワーク(RRN)とDFFN(Dual Feature Fusion Network)から構成される。
論文参考訳（メタデータ） (2021-05-26T16:54:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。