Fugu-MT 論文翻訳(概要): Reference-based Image Composition with Sketch via Structure-aware Diffusion Model

論文の概要: Reference-based Image Composition with Sketch via Structure-aware Diffusion Model

arxiv url: http://arxiv.org/abs/2304.09748v1
Date: Fri, 31 Mar 2023 06:12:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-23 04:06:47.638728
Title: Reference-based Image Composition with Sketch via Structure-aware Diffusion Model
Title（参考訳）: 構造認識拡散モデルによるスケッチによる参照ベース画像合成
Authors: Kangyeol Kim, Sunghyun Park, Junsoo Lee, Jaegul Choo
Abstract要約: 本稿では,参照画像とともに,スケッチを新しいモーダルとして組み込んだマルチインプット条件画像合成モデルを提案する。スケッチを用いたエッジレベル制御により,画像サブパートの編集や編集が可能である。筆者らのフレームワークは,スケッチ指導を維持しつつ,参照画像を用いて学習済み拡散モデルを微調整し,欠落した領域を完了させる。
参考スコア（独自算出の注目度）: 38.1193912666578
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent remarkable improvements in large-scale text-to-image generative models have shown promising results in generating high-fidelity images. To further enhance editability and enable fine-grained generation, we introduce a multi-input-conditioned image composition model that incorporates a sketch as a novel modal, alongside a reference image. Thanks to the edge-level controllability using sketches, our method enables a user to edit or complete an image sub-part with a desired structure (i.e., sketch) and content (i.e., reference image). Our framework fine-tunes a pre-trained diffusion model to complete missing regions using the reference image while maintaining sketch guidance. Albeit simple, this leads to wide opportunities to fulfill user needs for obtaining the in-demand images. Through extensive experiments, we demonstrate that our proposed method offers unique use cases for image manipulation, enabling user-driven modifications of arbitrary scenes.
Abstract（参考訳）: 大規模テキストから画像への生成モデルの最近の顕著な改善は、高忠実度画像の生成に有望な結果を示している。編集性をさらに向上し,詳細な生成を可能にするため,スケッチを参照画像とともに新しいモーダルとして組み込んだマルチインプット条件の画像合成モデルを導入する。本手法では,スケッチを用いたエッジレベルの制御性により,ユーザが所望の構造(スケッチ)とコンテンツ(参照画像)でサブパーツを編集あるいは完了することができる。本フレームワークは, スケッチ指導を維持しつつ, 参照画像を用いた欠落領域を完全化するために, 事前学習した拡散モデルを微調整する。単純なことだが、これは需要の高い画像を得るためにユーザーのニーズを満たす幅広い機会をもたらす。広範にわたる実験により,提案手法は画像操作にユニークなユースケースを提供し,任意のシーンをユーザ主導で修正できることを示した。

関連論文リスト

EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文参考訳（メタデータ） (2024-08-31T00:44:03Z)
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文参考訳（メタデータ） (2024-07-08T17:59:02Z)
FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文参考訳（メタデータ） (2024-07-06T03:35:43Z)
CustomSketching: Sketch Concept Extraction for Sketch-based Image Synthesis and Editing [21.12815542848095]
大規模なテキスト・ツー・イメージ(T2I)モデルのパーソナライズ技術により、ユーザーは参照画像から新しい概念を組み込むことができる。既存の手法は主にテキスト記述に依存しており、カスタマイズされた画像の制御が制限されている。スケッチを直感的で汎用的な表現として識別し,このような制御を容易にする。
論文参考訳（メタデータ） (2024-02-27T15:52:59Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
Customize StyleGAN with One Hand Sketch [0.0]
本稿では,単一のユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。我々は、エネルギーベース学習により、事前学習したStyleGANモデルの潜在空間における条件分布を学習する。我々のモデルは、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
論文参考訳（メタデータ） (2023-10-29T09:32:33Z)
Adaptively-Realistic Image Generation from Stroke and Sketch with Diffusion Model [31.652827838300915]
拡散モデルに基づくスケッチやストロークからの画像合成を3次元制御する統合フレームワークを提案する。我々のフレームワークは、形状、色、リアリズムを制御したカスタマイズ画像の生成に柔軟性を提供しながら、最先端のパフォーマンスを実現している。提案手法は,実画像の編集,部分スケッチとストロークの生成,マルチドメインマルチモーダル合成などの応用を解き放つ。
論文参考訳（メタデータ） (2022-08-26T13:59:26Z)
Look here! A parametric learning based approach to redirect visual attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文参考訳（メタデータ） (2020-08-12T16:08:36Z)
Deep Plastic Surgery: Robust and Controllable Image Editing with Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。 Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文参考訳（メタデータ） (2020-01-09T08:57:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。