論文の概要: Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation
- arxiv url: http://arxiv.org/abs/2412.12771v1
- Date: Tue, 17 Dec 2024 10:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:23.439014
- Title: Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation
- Title(参考訳): 大容量画像生成のためのワンショットスタイルアライメントを用いた誘導・可変補正核融合
- Authors: Shoukun Sun, Min Xian, Tiankai Yao, Fei Xu, Luca Capriotti,
- Abstract要約: 一般的なアプローチでは、一連の重複したイメージパッチを共同生成し、隣接するパッチをマージして大きなイメージを取得する。
既存の方法による結果は、例えば、縫い目や一貫性のないオブジェクトやスタイルなど、明らかな成果物を示すことが多い。
重み付き平均を重なり合う領域に適用することにより、遠方の画像領域からの負の影響を緩和する誘導核融合(GF)を提案する。
また,遅延補正型核融合 (VCF) も提案し, 劣化後のデータの分散を補正し, より正確な拡散確率モデルの融合を生成する。
- 参考スコア(独自算出の注目度): 2.3141583665677503
- License:
- Abstract: Producing large images using small diffusion models is gaining increasing popularity, as the cost of training large models could be prohibitive. A common approach involves jointly generating a series of overlapped image patches and obtaining large images by merging adjacent patches. However, results from existing methods often exhibit obvious artifacts, e.g., seams and inconsistent objects and styles. To address the issues, we proposed Guided Fusion (GF), which mitigates the negative impact from distant image regions by applying a weighted average to the overlapping regions. Moreover, we proposed Variance-Corrected Fusion (VCF), which corrects data variance at post-averaging, generating more accurate fusion for the Denoising Diffusion Probabilistic Model. Furthermore, we proposed a one-shot Style Alignment (SA), which generates a coherent style for large images by adjusting the initial input noise without adding extra computational burden. Extensive experiments demonstrated that the proposed fusion methods improved the quality of the generated image significantly. As a plug-and-play module, the proposed method can be widely applied to enhance other fusion-based methods for large image generation.
- Abstract(参考訳): 小さな拡散モデルを用いた大規模画像の生成は、大規模モデルのトレーニングコストが禁止される可能性があるため、人気が高まっている。
一般的なアプローチでは、一連の重複したイメージパッチを共同生成し、隣接するパッチをマージして大きなイメージを取得する。
しかし、既存の方法による結果は、例えば、縫い目や一貫性のないオブジェクトやスタイルなど、明らかな成果物を示すことが多い。
そこで我々は,重み付き平均を重なり合う領域に適用することにより,遠画像領域からの負の影響を緩和するガイドドフュージョン(GF)を提案する。
さらに,遅延補正核融合(VCF)を提案し,遅延拡散確率モデルに対するより正確な融合を生成する。
さらに,初期入力ノイズを調整することで,余分な計算負担を伴わずに画像のコヒーレントなスタイルを生成するワンショットスタイルアライメント(SA)を提案する。
大規模な実験により, 提案した融合法により生成画像の品質が著しく向上した。
プラグイン・アンド・プレイモジュールとして,大規模な画像生成のための他の融合方式を強化するために,提案手法を広く適用することができる。
関連論文リスト
- Modification Takes Courage: Seamless Image Stitching via Reference-Driven Inpainting [0.17975553762582286]
現在の画像縫合法は、不均一な色相や大きな視差のような挑戦的なシナリオにおいて顕著な縫い目を生み出す。
本稿では, 画像の融合と整形を基準ベースインペイントモデルとして再構成する参照駆動型インペイント・スティッチャ (RDIStitcher) を提案する。
本稿では,Multimodal Large Language Models (MLLM) を用いた画像品質評価手法を提案する。
論文 参考訳(メタデータ) (2024-11-15T16:05:01Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Generation and Recombination for Multifocus Image Fusion with Free
Number of Inputs [17.32596568119519]
マルチフォーカス画像融合は光学レンズの限界を克服する有効な方法である。
従来の手法では、2つのソース画像の焦点領域は相補的であり、複数の画像の同時融合が不可能である。
GRFusionでは、各ソースイメージのフォーカス特性検出を独立して実装でき、複数のソースイメージを同時に統合することができる。
論文 参考訳(メタデータ) (2023-09-09T01:47:56Z) - Improving Misaligned Multi-modality Image Fusion with One-stage
Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。
マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。
このスキームは、一段階最適化のみで粗大な登録を行う。
論文 参考訳(メタデータ) (2023-08-22T03:46:24Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。