論文の概要: PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data
- arxiv url: http://arxiv.org/abs/2502.14397v1
- Date: Thu, 20 Feb 2025 09:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:23.115712
- Title: PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data
- Title(参考訳): PhotoDoodle: 写真から芸術的な画像の編集を学べる
- Authors: Shijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu,
- Abstract要約: 挿入された要素が背景とシームレスに統合されなければならないため、写真のドーピングは難しい。
提案手法であるPhotoDoodleでは,2段階のトレーニング戦略を採用している。
生成した結果の整合性を高めるために,位置符号化再利用機構を導入する。
- 参考スコア(独自算出の注目度): 24.08203111413198
- License:
- Abstract: We introduce PhotoDoodle, a novel image editing framework designed to facilitate photo doodling by enabling artists to overlay decorative elements onto photographs. Photo doodling is challenging because the inserted elements must appear seamlessly integrated with the background, requiring realistic blending, perspective alignment, and contextual coherence. Additionally, the background must be preserved without distortion, and the artist's unique style must be captured efficiently from limited training data. These requirements are not addressed by previous methods that primarily focus on global style transfer or regional inpainting. The proposed method, PhotoDoodle, employs a two-stage training strategy. Initially, we train a general-purpose image editing model, OmniEditor, using large-scale data. Subsequently, we fine-tune this model with EditLoRA using a small, artist-curated dataset of before-and-after image pairs to capture distinct editing styles and techniques. To enhance consistency in the generated results, we introduce a positional encoding reuse mechanism. Additionally, we release a PhotoDoodle dataset featuring six high-quality styles. Extensive experiments demonstrate the advanced performance and robustness of our method in customized image editing, opening new possibilities for artistic creation.
- Abstract(参考訳): 我々は、アーティストが装飾的な要素を写真に重ね合わせることで、写真のドードリングを容易にするために設計された新しい画像編集フレームワークPhotoDoodleを紹介する。
挿入された要素は背景とシームレスに統合され、現実的なブレンディング、視点のアライメント、コンテキストコヒーレンスを必要とするため、写真のドーリングは難しい。
さらに、背景を歪みなく保存し、限られたトレーニングデータからアーティスト独自のスタイルを効率的に取得する必要がある。
これらの要件は、グローバルなスタイルの転送や地域的なインパインティングに主にフォーカスする従来の手法によって対処されていない。
提案手法であるPhotoDoodleでは,2段階のトレーニング戦略を採用している。
まず、大規模なデータを用いて汎用画像編集モデルOmniEditorを訓練する。
その後、このモデルをEditLoRAで微調整し、前と後の画像ペアの小さなアーチストによるデータセットを使用して、異なる編集スタイルやテクニックをキャプチャする。
生成した結果の整合性を高めるために,位置符号化再利用機構を導入する。
さらに、6つの高品質なスタイルを備えたPhotoDoodleデータセットもリリースしています。
広汎な実験は、カスタマイズされた画像編集における我々の手法の高度な性能と堅牢性を示し、芸術的創造の新たな可能性を開く。
関連論文リスト
- MuseumMaker: Continual Style Customization without Catastrophic Forgetting [50.12727620780213]
本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。
新しいカスタマイズスタイルに直面すると、新しい画像生成のためのトレーニングデータのスタイルを抽出し学習するスタイル蒸留損失モジュールを開発する。
これは、新しい訓練画像の内容による学習バイアスを最小限に抑え、少数ショット画像によって引き起こされる破滅的な過適合問題に対処することができる。
論文 参考訳(メタデータ) (2024-04-25T13:51:38Z) - StyleBooth: Image Style Editing with Multimodal Instruction [17.251982243534144]
原画像が与えられた場合、画像編集は提供された命令に一致した画像を生成することを目的としている。
本稿では,画像スタイルの編集に焦点をあて,画像編集のための総合的なフレームワークであるStyleBoothを提案する。
反復的なスタイル記述のチューニングと編集とユーザビリティのフィルタリングによって、StyleBoothデータセットは、コンテンツ一貫性のあるスタイリング/プレーンイメージペアを提供する。
論文 参考訳(メタデータ) (2024-04-18T12:58:55Z) - Towards Highly Realistic Artistic Style Transfer via Stable Diffusion with Step-aware and Layer-aware Prompt [12.27693060663517]
芸術的スタイルの転送は、学習した芸術的スタイルを任意のコンテンツイメージに転送することを目的としており、芸術的なスタイル化されたイメージを生成する。
LSASTと呼ばれる,事前学習型拡散型アートスタイルトランスファー手法を提案する。
提案手法は,最先端の芸術的スタイル伝達法よりも,よりリアルな芸術的スタイル化画像を生成することができる。
論文 参考訳(メタデータ) (2024-04-17T15:28:53Z) - Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:48:35Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - Photoswap: Personalized Subject Swapping in Images [56.2650908740358]
Photowapは参照画像から対象の視覚概念を学習し、事前訓練された拡散モデルを用いて対象画像に置き換える。
Photowapは、被験者のスワップ、背景保存、全体的な品質において、人間の評価におけるベースラインの手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-29T17:56:13Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Unsupervised Scene Sketch to Photo Synthesis [40.044690369936184]
シーンスケッチからリアルな写真を合成する手法を提案する。
我々のフレームワークは、教師なしの方法で手軽に利用できる大規模写真データセットから学習する。
また、本フレームワークは、対応するスケッチのストロークを編集することで、写真合成の制御可能な操作を容易にすることを実証する。
論文 参考訳(メタデータ) (2022-09-06T22:25:06Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。