論文の概要: AccDiffusion: An Accurate Method for Higher-Resolution Image Generation
- arxiv url: http://arxiv.org/abs/2407.10738v1
- Date: Mon, 15 Jul 2024 14:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:01:44.766576
- Title: AccDiffusion: An Accurate Method for Higher-Resolution Image Generation
- Title(参考訳): AccDiffusion:高分解能画像生成のための高精度手法
- Authors: Zhihang Lin, Mingbao Lin, Meng Zhao, Rongrong Ji,
- Abstract要約: AccDiffusionは、パッチワイドの高解像度画像生成をトレーニングなしで正確に行う方法である。
本稿では,異なるパッチに対する同一のテキストプロンプトが繰り返しオブジェクト生成を引き起こすことを明らかにする。
我々のAccDiffusionは、繰り返しオブジェクト生成の問題に効果的に対処し、高解像度画像生成の性能向上につながる。
- 参考スコア(独自算出の注目度): 63.53163540340026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper attempts to address the object repetition issue in patch-wise higher-resolution image generation. We propose AccDiffusion, an accurate method for patch-wise higher-resolution image generation without training. An in-depth analysis in this paper reveals an identical text prompt for different patches causes repeated object generation, while no prompt compromises the image details. Therefore, our AccDiffusion, for the first time, proposes to decouple the vanilla image-content-aware prompt into a set of patch-content-aware prompts, each of which serves as a more precise description of an image patch. Besides, AccDiffusion also introduces dilated sampling with window interaction for better global consistency in higher-resolution image generation. Experimental comparison with existing methods demonstrates that our AccDiffusion effectively addresses the issue of repeated object generation and leads to better performance in higher-resolution image generation. Our code is released at \url{https://github.com/lzhxmu/AccDiffusion}.
- Abstract(参考訳): 本稿では,パッチワイド高解像度画像生成におけるオブジェクト繰り返し問題に対処する。
AccDiffusionは、パッチワイドの高解像度画像生成をトレーニングなしで正確に行う方法である。
本稿では,異なるパッチに対する同一のテキストプロンプトが繰り返しオブジェクト生成を引き起こすことを明らかにする。
そこで,我々のAccDiffusionは,バニラ画像認識プロンプトをパッチコンテンツ認識プロンプトの集合に分離することを提案し,それぞれがより正確な画像パッチ記述として機能する。
さらに、AccDiffusionはウィンドウインタラクションによる拡張サンプリングを導入し、高解像度画像生成におけるグローバル一貫性を改善した。
既存の手法との比較実験により,AccDiffusionは繰り返しオブジェクト生成の問題に効果的に対処し,高分解能画像生成の性能向上につながることが示された。
私たちのコードは \url{https://github.com/lzhxmu/AccDiffusion} でリリースされています。
関連論文リスト
- HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models [13.68666823175341]
HiDiffusionは、画像合成のためのチューニング不要な高解像度フレームワークである。
RAU-Netはオブジェクト重複を解決するために特徴マップサイズを動的に調整する。
MSW-MSAは、計算量を減らすために最適化されたウィンドウアテンションを利用する。
論文 参考訳(メタデータ) (2023-11-29T11:01:38Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size
HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。
そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。
ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文 参考訳(メタデータ) (2023-08-31T09:27:56Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Attention-based Multi-Reference Learning for Image Super-Resolution [29.361342747786164]
本稿では,新しいアテンションに基づくマルチ参照超解像ネットワークを提案する。
類似したテクスチャを複数の参照画像から超解像出力に適応的に転送する。
最先端の参照超解像法よりも性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-08-31T09:12:26Z) - Low Resolution Information Also Matters: Learning Multi-Resolution
Representations for Person Re-Identification [37.01666917620271]
クロスレゾリューションされた人物のリIDは、オーバーラップされていないカメラから撮影した人物の画像をマッチングすることを目的としている。
emphtextbfMulti-Resolution textbfRepresentations textbfJoint textbfLearning (textbfMRJL)
提案手法は,分解能再構成ネットワーク(RRN)とDFFN(Dual Feature Fusion Network)から構成される。
論文 参考訳(メタデータ) (2021-05-26T16:54:56Z) - High-Resolution Image Inpainting with Iterative Confidence Feedback and
Guided Upsampling [122.06593036862611]
既存の画像塗装法は、実アプリケーションで大きな穴を扱う際に、しばしばアーティファクトを生成する。
本稿では,フィードバック機構を備えた反復インペイント手法を提案する。
実験により,本手法は定量評価と定性評価の両方において既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-05-24T13:23:45Z) - Unsupervised Real Image Super-Resolution via Generative Variational
AutoEncoder [47.53609520395504]
古典的な例に基づく画像超解法を再考し、知覚的画像超解法のための新しい生成モデルを考案する。
本稿では,変分オートエンコーダを用いた共同画像デノベーションと超解像モデルを提案する。
判別器の助けを借りて、超分解能サブネットワークのオーバーヘッドを加味して、分解された画像をフォトリアリスティックな視覚的品質で超解凍する。
論文 参考訳(メタデータ) (2020-04-27T13:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。