論文の概要: Magic Insert: Style-Aware Drag-and-Drop
- arxiv url: http://arxiv.org/abs/2407.02489v1
- Date: Tue, 2 Jul 2024 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:17:26.437708
- Title: Magic Insert: Style-Aware Drag-and-Drop
- Title(参考訳): Magic Insert:スタイルを意識したドラッグ&ドロップ
- Authors: Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter,
- Abstract要約: 本稿では,ユーザが提供する画像から異なるスタイルのターゲット画像に対象物をドラッグアンドドロップするMagic Insertを提案する。
スタイル認識のパーソナライゼーションでは,LoRAを用いた事前学習されたテキスト・ツー・イメージ拡散モデルの微調整を行い,対象画像上のテキストトークンを学習する。
オブジェクト挿入にはBootstrapped Domain Adaptionを使用し、ドメイン固有のフォトリアリスティックオブジェクト挿入モデルをさまざまな芸術スタイルのドメインに適応させる。
- 参考スコア(独自算出の注目度): 28.101564123298882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/
- Abstract(参考訳): 提案するマジック・インサート(Magic Insert)は、ユーザが提供する画像から、対象画像のスタイルにマッチしながら、物理的に妥当な方法で、異なるスタイルのターゲット画像へ、対象画像をドラッグ&ドロップする手法である。
本研究は,スタイル認識のドラッグ・アンド・ドロップの問題を形式化し,スタイル認識のパーソナライゼーションと,スタイリングされた画像における現実的なオブジェクト挿入という,2つのサブプロブレムに対処する手法を提案する。
スタイル認識のパーソナライゼーションでは,まずLoRAを用いて事前学習したテキスト・ツー・イメージ拡散モデルを微調整し,対象画像上のテキストトークンを学習し,ターゲット画像のCLIP表現で注入する。
オブジェクト挿入にはBootstrapped Domain Adaptionを使用し、ドメイン固有のフォトリアリスティックオブジェクト挿入モデルをさまざまな芸術スタイルのドメインに適応させる。
全体としては、塗布などの従来の手法よりも優れていた。
最後に,この領域における評価と今後の進歩を促進するためのデータセット,SubjectPlopを提案する。
プロジェクトページ: https://magicinsert.github.io/
関連論文リスト
- Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Soulstyler: Using Large Language Model to Guide Image Style Transfer for
Target Object [9.759321877363258]
Soulstylerを使えば、ユーザーは簡単なテキスト記述を通じて画像中の特定のオブジェクトのスタイル化をガイドできる。
テキストを解析し、スタイル化の目標と特定のスタイルを特定するために、大きな言語モデルを導入する。
また,特定の対象オブジェクトに対してのみスタイル転送が行われることを保証する,新たなローカライズされたテキストイメージブロックマッチング損失を導入する。
論文 参考訳(メタデータ) (2023-11-22T18:15:43Z) - MOSAIC: Multi-Object Segmented Arbitrary Stylization Using CLIP [0.0]
テキストによって駆動されるスタイル転送は、実際のスタイルイメージを収集することなく、創造的に画像をスタイリングするための新しいパスを舗装した。
入力プロンプトから抽出したコンテキストに基づいて、画像内の異なるオブジェクトにスタイルを適用することができるCLIP(MOSAIC)を用いたマルチオブジェクト分割任意スティル化手法を提案する。
本手法は任意のオブジェクトやスタイルに拡張可能であり,最先端の手法と比較して高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-24T18:24:55Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Imagic: Text-Based Real Image Editing with Diffusion Models [19.05825157237432]
我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。
提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。
実際のイメージで動作し、追加の入力を必要としない。
論文 参考訳(メタデータ) (2022-10-17T17:27:32Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Interactive Style Transfer: All is Your Palette [74.06681967115594]
本稿では,ユーザが対話的に調和したスタイルのイメージを作成できる,図形的な対話型スタイル転送(IST)手法を提案する。
私たちのISTメソッドは、どこからでもブラシやディップスタイルとして機能し、ターゲットのコンテンツイメージの任意の領域にペイントします。
論文 参考訳(メタデータ) (2022-03-25T06:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。