論文の概要: Soulstyler: Using Large Language Model to Guide Image Style Transfer for
Target Object
- arxiv url: http://arxiv.org/abs/2311.13562v2
- Date: Wed, 29 Nov 2023 15:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:31:09.902082
- Title: Soulstyler: Using Large Language Model to Guide Image Style Transfer for
Target Object
- Title(参考訳): soulstyler: 大きな言語モデルを使用してターゲットオブジェクトのイメージスタイル転送をガイドする
- Authors: Junhao Chen, Peng Rong, Jingbo Sun, Chao Li, Xiang Li, Hongwu Lv
- Abstract要約: Soulstylerを使えば、ユーザーは簡単なテキスト記述を通じて画像中の特定のオブジェクトのスタイル化をガイドできる。
テキストを解析し、スタイル化の目標と特定のスタイルを特定するために、大きな言語モデルを導入する。
また,特定の対象オブジェクトに対してのみスタイル転送が行われることを保証する,新たなローカライズされたテキストイメージブロックマッチング損失を導入する。
- 参考スコア(独自算出の注目度): 9.759321877363258
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image style transfer occupies an important place in both computer graphics
and computer vision. However, most current methods require reference to
stylized images and cannot individually stylize specific objects. To overcome
this limitation, we propose the "Soulstyler" framework, which allows users to
guide the stylization of specific objects in an image through simple textual
descriptions. We introduce a large language model to parse the text and
identify stylization goals and specific styles. Combined with a CLIP-based
semantic visual embedding encoder, the model understands and matches text and
image content. We also introduce a novel localized text-image block matching
loss that ensures that style transfer is performed only on specified target
objects, while non-target regions remain in their original style. Experimental
results demonstrate that our model is able to accurately perform style transfer
on target objects according to textual descriptions without affecting the style
of background regions. Our code will be available at
https://github.com/yisuanwang/Soulstyler.
- Abstract(参考訳): 画像スタイルの転送はコンピュータグラフィックスとコンピュータビジョンの両方において重要な位置を占める。
しかし、現在の方法の多くは、特定のオブジェクトを個別にスタイリッシュすることができない、スタイリッシュな画像を参照する必要がある。
この制限を克服するために、ユーザーは簡単なテキスト記述を通じて画像内の特定のオブジェクトのスタイル化をガイドできる「Soulstyler」フレームワークを提案する。
テキストを解析し,スタイライゼーション目標と特定のスタイルを識別するための大規模言語モデルを提案する。
CLIPベースのセマンティックな視覚埋め込みエンコーダと組み合わせることで、モデルはテキストと画像の内容を理解し、マッチングする。
また、ターゲット以外の領域が元のスタイルのままであるのに対して、特定の対象オブジェクトに対してのみスタイル転送が行われることを保証する、新しいローカライズされたテキストイメージブロックマッチング損失を導入する。
実験の結果,背景領域のスタイルに影響を与えることなく,テキスト記述による対象オブジェクトのスタイル転送を精度良く行うことができた。
私たちのコードはhttps://github.com/yisuanwang/soulstylerで利用可能です。
関連論文リスト
- MOSAIC: Multi-Object Segmented Arbitrary Stylization Using CLIP [0.0]
テキストによって駆動されるスタイル転送は、実際のスタイルイメージを収集することなく、創造的に画像をスタイリングするための新しいパスを舗装した。
入力プロンプトから抽出したコンテキストに基づいて、画像内の異なるオブジェクトにスタイルを適用することができるCLIP(MOSAIC)を用いたマルチオブジェクト分割任意スティル化手法を提案する。
本手法は任意のオブジェクトやスタイルに拡張可能であり,最先端の手法と比較して高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-24T18:24:55Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Sem-CS: Semantic CLIPStyler for Text-Based Image Style Transfer [4.588028371034406]
本稿ではセマンティックCLIPStyler(Semantic CLIPStyler)を提案する。
Sem-CSはまずコンテンツイメージを正当で非正当なオブジェクトに分割し、所定のスタイルのテキスト記述に基づいて芸術的なスタイルを転送する。
DISTS,NIMA,ユーザスタディスコアなどの実験結果から,提案手法は質的,定量的な性能に優れることが示された。
論文 参考訳(メタデータ) (2023-07-12T05:59:42Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - SEM-CS: Semantic CLIPStyler for Text-Based Image Style Transfer [4.588028371034406]
本稿ではセマンティックCLIPStyler(Semantic CLIPStyler)を提案する。
Sem-CSはまずコンテンツイメージを正当で非正当なオブジェクトに分割し、所定のスタイルのテキスト記述に基づいて芸術的なスタイルを転送する。
DISTS,NIMA,ユーザスタディスコアなどの実験結果から,提案手法は質的,定量的な性能に優れることが示された。
論文 参考訳(メタデータ) (2023-03-11T07:33:06Z) - SHUNIT: Style Harmonization for Unpaired Image-to-Image Translation [14.485088590863327]
未ペアI2I翻訳のためのスタイル調和法(SHUNIT)を提案する。
我々のSHUNITは、クラスメモリと元のソースイメージスタイルから取得したターゲットドメインスタイルを調和させて、新しいスタイルを生成する。
提案手法を広範囲な実験により検証し,最新のベンチマークセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-11T19:24:03Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z) - DeepObjStyle: Deep Object-based Photo Style Transfer [31.75300124593133]
スタイル転送の大きな課題の1つは、出力画像と入力画像(スタイルとコンテンツ)の間の適切な画像特徴の監督である。
トレーニングデータに依存しないフレームワークにおけるスタイル管理のためのオブジェクトベースのスタイル転送手法であるDeepStyleを提案する。
論文 参考訳(メタデータ) (2020-12-11T17:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。