論文の概要: DreamEdit: Subject-driven Image Editing
- arxiv url: http://arxiv.org/abs/2306.12624v1
- Date: Thu, 22 Jun 2023 01:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:44:07.033759
- Title: DreamEdit: Subject-driven Image Editing
- Title(参考訳): dreamedit: 主題による画像編集
- Authors: Tianle Li, Max Ku, Cong Wei, Wenhu Chen
- Abstract要約: 本稿では,2つの新しいサブタスク,すなわち主観的置換と主観的付加を提案する。
主観的置き換えでは,既存のモデルが原対象の形状や色に敏感であることが判明した。
対象追加について,既存のモデルでは,カスタマイズした対象を背景にスムーズにブレンドすることができないことがわかった。
- 参考スコア(独自算出の注目度): 24.752178160178154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subject-driven image generation aims at generating images containing
customized subjects, which has recently drawn enormous attention from the
research community. However, the previous works cannot precisely control the
background and position of the target subject. In this work, we aspire to fill
the void and propose two novel subject-driven sub-tasks, i.e., Subject
Replacement and Subject Addition. The new tasks are challenging in multiple
aspects: replacing a subject with a customized one can change its shape,
texture, and color, while adding a target subject to a designated position in a
provided scene necessitates a context-aware posture. To conquer these two novel
tasks, we first manually curate a new dataset DreamEditBench containing 22
different types of subjects, and 440 source images with different difficulty
levels. We plan to host DreamEditBench as a platform and hire trained
evaluators for standard human evaluation. We also devise an innovative method
DreamEditor to resolve these tasks by performing iterative generation, which
enables a smooth adaptation to the customized subject. In this project, we
conduct automatic and human evaluations to understand the performance of
DreamEditor and baselines on DreamEditBench. For Subject Replacement, we found
that the existing models are sensitive to the shape and color of the original
subject. The model failure rate will dramatically increase when the source and
target subjects are highly different. For Subject Addition, we found that the
existing models cannot easily blend the customized subjects into the background
smoothly, leading to noticeable artifacts in the generated image. We hope
DreamEditBench can become a standard platform to enable future investigations
toward building more controllable subject-driven image editing. Our project
homepage is https://dreameditbenchteam.github.io/.
- Abstract(参考訳): 被写体駆動画像生成は、最近研究コミュニティから大きな注目を集めているカスタマイズされた被写体を含む画像を生成することを目的としている。
しかし,従来の研究は対象対象の背景や位置を正確に制御することはできない。
本研究では,この空白を満たし,2つの新しい主題駆動サブタスク,すなわち主題置換と主題付加を提案する。
対象をカスタマイズしたものに置き換えることで、形状、テクスチャ、色を変えることができる一方で、提供されたシーンで指定された位置に対象を付加することで、状況に応じた姿勢を必要とする。
この2つの新しい課題を克服するために、まず22種類の被験者と440個のソースイメージを含む新しいデータセットDreamEditBenchを手作業でキュレートする。
プラットフォームとしてDreamEditBenchをホストし、標準的な人間評価のために訓練された評価者を雇用する予定です。
また、これらの課題を反復生成することで解決する革新的な手法を考案し、カスタマイズ対象への円滑な適応を可能にする。
本稿では,DreamEditBenchにおけるDreamEditorの性能とベースラインを理解するために,自動評価と人的評価を行う。
主観的置き換えでは,既存のモデルが原対象の形状や色に敏感であることが判明した。
モデル失敗率は、ソースと対象が極めて異なる場合に劇的に増加する。
対象追加については,既存のモデルではカスタマイズした対象を背景にスムーズにブレンドすることができず,生成した画像に顕著なアーティファクトが生じることがわかった。
dreameditbenchが、より制御可能な主題駆動画像編集を構築するための将来の調査を可能にする標準プラットフォームになることを願っている。
プロジェクトのホームページはhttps://dreameditbenchteam.github.io/。
関連論文リスト
- Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Repositioning the Subject within Image [78.8467524191102]
本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
論文 参考訳(メタデータ) (2024-01-30T10:04:49Z) - DreamTuner: Single Image is Enough for Subject-Driven Generation [16.982780785747202]
拡散に基づくモデルは、テキスト・画像生成の優れた機能を示している。
しかし、微調整に基づく既存の手法は、対象学習と事前学習モデルの生成能力の維持のトレードオフをバランスづけることができない。
本研究では,より効果的に被写体駆動画像生成を実現するために,粗い情報から細かな情報に参照情報を注入する新しい手法であるDreamTurnerを提案する。
論文 参考訳(メタデータ) (2023-12-21T09:37:14Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文 参考訳(メタデータ) (2022-12-08T18:57:13Z) - SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文 参考訳(メタデータ) (2021-11-30T23:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。