論文の概要: MOSAIC: Multi-Object Segmented Arbitrary Stylization Using CLIP
- arxiv url: http://arxiv.org/abs/2309.13716v1
- Date: Sun, 24 Sep 2023 18:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 18:05:03.355239
- Title: MOSAIC: Multi-Object Segmented Arbitrary Stylization Using CLIP
- Title(参考訳): MOSAIC:CLIPを用いた多目的任意スチル化
- Authors: Prajwal Ganugula, Y S S S Santosh Kumar, N K Sagar Reddy, Prabhath
Chellingi, Avinash Thakur, Neeraj Kasera, C Shyam Anand
- Abstract要約: テキストによって駆動されるスタイル転送は、実際のスタイルイメージを収集することなく、創造的に画像をスタイリングするための新しいパスを舗装した。
入力プロンプトから抽出したコンテキストに基づいて、画像内の異なるオブジェクトにスタイルを適用することができるCLIP(MOSAIC)を用いたマルチオブジェクト分割任意スティル化手法を提案する。
本手法は任意のオブジェクトやスタイルに拡張可能であり,最先端の手法と比較して高品質な画像を生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Style transfer driven by text prompts paved a new path for creatively
stylizing the images without collecting an actual style image. Despite having
promising results, with text-driven stylization, the user has no control over
the stylization. If a user wants to create an artistic image, the user requires
fine control over the stylization of various entities individually in the
content image, which is not addressed by the current state-of-the-art
approaches. On the other hand, diffusion style transfer methods also suffer
from the same issue because the regional stylization control over the stylized
output is ineffective. To address this problem, We propose a new method
Multi-Object Segmented Arbitrary Stylization Using CLIP (MOSAIC), that can
apply styles to different objects in the image based on the context extracted
from the input prompt. Text-based segmentation and stylization modules which
are based on vision transformer architecture, were used to segment and stylize
the objects. Our method can extend to any arbitrary objects, styles and produce
high-quality images compared to the current state of art methods. To our
knowledge, this is the first attempt to perform text-guided arbitrary
object-wise stylization. We demonstrate the effectiveness of our approach
through qualitative and quantitative analysis, showing that it can generate
visually appealing stylized images with enhanced control over stylization and
the ability to generalize to unseen object classes.
- Abstract(参考訳): テキストプロンプトによって駆動されるスタイル転送は、実際のスタイルイメージを収集せずに画像を創造的にスタイリングするための新しいパスを舗装した。
有望な結果を得たにもかかわらず、テキスト駆動型スタイリゼーションでは、ユーザはスタイリゼーションを制御できない。
ユーザが芸術的なイメージを作成したい場合、ユーザは、現在の最先端のアプローチでは対処できないコンテンツイメージにおいて、さまざまなエンティティのスタイル化を細かく制御する必要がある。
一方,スタイライゼーション出力に対する局所的スタイライゼーション制御は有効ではないため,拡散スタイル転送法も同様の問題に直面している。
この問題を解決するために,CLIP(MOSAIC)を用いたマルチオブジェクト分割任意化手法を提案し,入力プロンプトから抽出したコンテキストに基づいて,画像内の異なるオブジェクトにスタイルを適用する。
vision transformerアーキテクチャに基づいたテキストベースのセグメンテーションとスタイライゼーションモジュールは、オブジェクトのセグメンテーションとスタイライゼーションに使用された。
この手法は任意のオブジェクトやスタイルに拡張でき、現在のアートメソッドと比較して高品質な画像を生成することができる。
我々の知る限り、これはテキスト誘導の任意のオブジェクト・ワイド・スタイル化を行う最初の試みである。
本手法は定性的かつ定量的な解析を行い, 定型化制御の強化と非知覚オブジェクトクラスへの一般化により, 視覚的に魅力的な定形化画像を生成することができることを示す。
関連論文リスト
- StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - Magic Insert: Style-Aware Drag-and-Drop [28.101564123298882]
本稿では,ユーザが提供する画像から異なるスタイルのターゲット画像に対象物をドラッグアンドドロップするMagic Insertを提案する。
スタイル認識のパーソナライゼーションでは,LoRAを用いた事前学習されたテキスト・ツー・イメージ拡散モデルの微調整を行い,対象画像上のテキストトークンを学習する。
オブジェクト挿入にはBootstrapped Domain Adaptionを使用し、ドメイン固有のフォトリアリスティックオブジェクト挿入モデルをさまざまな芸術スタイルのドメインに適応させる。
論文 参考訳(メタデータ) (2024-07-02T17:59:50Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Soulstyler: Using Large Language Model to Guide Image Style Transfer for
Target Object [9.759321877363258]
Soulstylerを使えば、ユーザーは簡単なテキスト記述を通じて画像中の特定のオブジェクトのスタイル化をガイドできる。
テキストを解析し、スタイル化の目標と特定のスタイルを特定するために、大きな言語モデルを導入する。
また,特定の対象オブジェクトに対してのみスタイル転送が行われることを保証する,新たなローカライズされたテキストイメージブロックマッチング損失を導入する。
論文 参考訳(メタデータ) (2023-11-22T18:15:43Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - A Fast Text-Driven Approach for Generating Artistic Content [11.295288894403754]
ビジュアルアートを生成するための完全なフレームワークを提案する。
改善されたバージョンを実装し、様々なディテール、スタイル、構造で幅広い結果を生成する。
結果をさらに高めるため,生成パイプラインに芸術的超解像モジュールを挿入する。
論文 参考訳(メタデータ) (2022-06-22T14:34:59Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Translation [10.357474047610172]
本稿では,ユーザが所望の描画スタイルを指定可能なテキスト記述のためのスタイルドローイング生成手法を提案する。
創作過程において、スタイルと内容が分離できないという芸術理論に触発されて、我々はStyleCLIPDrawとして知られる、結合したアプローチを提案する。
人間の評価に基づいて、StyleCLIPDrawによって生成される画像のスタイルは、シーケンシャルアプローチによって強く好まれる。
論文 参考訳(メタデータ) (2022-02-24T21:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。