論文の概要: Refine-by-Align: Reference-Guided Artifacts Refinement through Semantic Alignment
- arxiv url: http://arxiv.org/abs/2412.00306v1
- Date: Sat, 30 Nov 2024 01:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:04.205447
- Title: Refine-by-Align: Reference-Guided Artifacts Refinement through Semantic Alignment
- Title(参考訳): Refine-by-Align:Reference-Guided Artifacts Refinement through Semantic Alignment
- Authors: Yizhi Song, Liu He, Zhifei Zhang, Soo Ye Kim, He Zhang, Wei Xiong, Zhe Lin, Brian Price, Scott Cohen, Jianming Zhang, Daniel Aliaga,
- Abstract要約: 本稿では、この課題に対処するために拡散ベースのフレームワークを利用する、第一種モデルであるRefine-by-Alignを紹介する。
我々のパイプラインは、画像合成モデルにおける細部の境界を大幅に推し進めている。
- 参考スコア(独自算出の注目度): 40.112548587906005
- License:
- Abstract: Personalized image generation has emerged from the recent advancements in generative models. However, these generated personalized images often suffer from localized artifacts such as incorrect logos, reducing fidelity and fine-grained identity details of the generated results. Furthermore, there is little prior work tackling this problem. To help improve these identity details in the personalized image generation, we introduce a new task: reference-guided artifacts refinement. We present Refine-by-Align, a first-of-its-kind model that employs a diffusion-based framework to address this challenge. Our model consists of two stages: Alignment Stage and Refinement Stage, which share weights of a unified neural network model. Given a generated image, a masked artifact region, and a reference image, the alignment stage identifies and extracts the corresponding regional features in the reference, which are then used by the refinement stage to fix the artifacts. Our model-agnostic pipeline requires no test-time tuning or optimization. It automatically enhances image fidelity and reference identity in the generated image, generalizing well to existing models on various tasks including but not limited to customization, generative compositing, view synthesis, and virtual try-on. Extensive experiments and comparisons demonstrate that our pipeline greatly pushes the boundary of fine details in the image synthesis models.
- Abstract(参考訳): 生成モデルの最近の進歩から、パーソナライズされた画像生成が出現している。
しかし、これらの生成したパーソナライズされた画像は、しばしば不正確なロゴのような局所的なアーティファクトに悩まされ、その結果の忠実さと細かなアイデンティティの詳細を減少させる。
さらに、この問題に対処する事前の作業はほとんどありません。
パーソナライズされた画像生成において、これらのアイデンティティの詳細を改善するために、参照誘導アーティファクトの改良という新しいタスクを導入する。
本稿では、この課題に対処するために拡散ベースのフレームワークを利用する、第一種モデルであるRefine-by-Alignを紹介する。
我々のモデルは、統合ニューラルネットワークモデルの重みを共有するアライメントステージとリファインメントステージの2つのステージで構成されている。
生成画像、マスクされたアーティファクト領域、参照画像が与えられた後、アライメントステージは、参照中の対応する地域特徴を特定して抽出し、精製ステージでそのアーティファクトを固定する。
私たちのモデルに依存しないパイプラインでは、テスト時のチューニングや最適化は必要ありません。
生成された画像における画像の忠実度と参照アイデンティティを自動的に強化し、カスタマイズ、生成合成、ビュー合成、仮想トライオンなど、さまざまなタスクにおける既存のモデルによく適応する。
大規模な実験と比較により、パイプラインは画像合成モデルにおける細部の境界を大幅に推し進めることを示した。
関連論文リスト
- How to Trace Latent Generative Model Generated Images without Artificial Watermark? [88.04880564539836]
潜在生成モデルによって生成された画像に関する潜在的な誤用に関する懸念が持ち上がっている。
検査されたモデルの生成された画像をトレースするために,レイトタントトラッカーと呼ばれる潜時反転に基づく手法を提案する。
提案手法は,検査したモデルと他の画像から生成された画像とを高精度かつ効率的に識別できることを示す。
論文 参考訳(メタデータ) (2024-05-22T05:33:47Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DiffGAR: Model-Agnostic Restoration from Generative Artifacts Using
Image-to-Image Diffusion Models [46.46919194633776]
この作業は、多様な生成モデルのためのプラグイン後処理モジュールの開発を目的としている。
従来の劣化パターンとは異なり、生成アーティファクトは非線形であり、変換関数は非常に複雑である。
論文 参考訳(メタデータ) (2022-10-16T16:08:47Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。