Fugu-MT 論文翻訳(概要): InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style Adviser

論文の概要: InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style Adviser

arxiv url: http://arxiv.org/abs/2311.15040v3
Date: Fri, 12 Jul 2024 04:10:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 05:37:11.014839
Title: InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style Adviser
Title（参考訳）: InstaStyle:スタイリズされた画像の逆ノイズは、秘かにスタイルアドバイス
Authors: Xing Cui, Zekun Li, Pei Pei Li, Huaibo Huang, Xuannan Liu, Zhaofeng He,
Abstract要約: 本稿では,単一の参照画像のみを用いて高忠実度スタイリング画像を生成する手法であるInstaStyleを提案する。提案手法は,スタイリングされた参照画像からの逆ノイズが本質的にスタイル信号を運ぶことに基づく。本稿では,参照画像のスタイル記述の精度を高めるために,プロンプトリファインメントによる学習可能なスタイルトークンを提案する。
参考スコア（独自算出の注目度）: 19.466860144772674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stylized text-to-image generation focuses on creating images from textual descriptions while adhering to a style specified by a few reference images. However, subtle style variations within different reference images can hinder the model from accurately learning the target style. In this paper, we propose InstaStyle, a novel approach that excels in generating high-fidelity stylized images with only a single reference image. Our approach is based on the finding that the inversion noise from a stylized reference image inherently carries the style signal, as evidenced by their non-zero signal-to-noise ratio. We employ DDIM inversion to extract this noise from the reference image and leverage a diffusion model to generate new stylized images from the "style" noise. Additionally, the inherent ambiguity and bias of textual prompts impede the precise conveying of style. To address this, we introduce a learnable style token via prompt refinement, which enhances the accuracy of the style description for the reference image. Qualitative and quantitative experimental results demonstrate that InstaStyle achieves superior performance compared to current benchmarks. Furthermore, our approach also showcases its capability in the creative task of style combination with mixed inversion noise.
Abstract（参考訳）: スティル化されたテキスト・ツー・イメージ生成は、いくつかの参照画像で指定されたスタイルに固執しながら、テキスト記述から画像を作成することに焦点を当てる。しかし、異なる参照画像内の微妙なスタイルの変化は、モデルがターゲットのスタイルを正確に学習することを妨げる。本稿では,単一の参照画像のみを用いて高忠実度スタイリング画像を生成する手法であるInstaStyleを提案する。提案手法は,非ゼロ信号対雑音比で示されるように,スタイリングされた参照画像からの逆ノイズが本質的にスタイル信号を運ぶことに基づく。我々は、DDIMインバージョンを用いて、参照画像からこのノイズを抽出し、拡散モデルを利用して「スタイル」ノイズから新しいスタイル化された画像を生成する。さらに、テキストプロンプトの本来の曖昧さと偏見は、スタイルの正確な伝達を妨げる。そこで本研究では,参照画像のスタイル記述の精度を高めるために,プロンプトリファインメントによる学習可能なスタイルトークンを提案する。定性的かつ定量的な実験結果から、InstaStyleは現在のベンチマークよりも優れた性能を発揮することが示された。さらに,本手法は,混合インバージョンノイズと組み合わせたスタイルの創造的タスクにおいて,その能力を示す。

関連論文リスト

Z-STAR+: A Zero-shot Style Transfer Method via Adjusting Style Distribution [24.88532732093652]
スタイル転送は重要な課題であり、主に適切なスタイル表現を特定することに焦点を当てている。既存の手法とは対照的に,バニラ拡散モデルにおける潜在的特徴が自然的スタイルや内容分布を本質的に含んでいることが判明した。提案手法では,コンテンツ参照とスタイル参照を遅延空間で表現するために,デュアル・デノナイズ・パスを採用し,その後,スタイル遅延符号を用いたコンテントイメージ・デノナイズ・プロセスの導出を行う。
論文参考訳（メタデータ） (2024-11-28T15:56:17Z)
Style-Friendly SNR Sampler for Style-Driven Generation [44.49588713955722]
スタイル駆動生成では、ユーザーは典型的には、所望のスタイルを示す参照イメージと、所望のスタイル属性を指定するテキストプロンプトを提供する。従来のアプローチは微調整に頼っていたが、適応せずに事前訓練から目的や騒音レベルの分布を盲目的に利用することが多い。そこで我々は,SNRの信号対雑音比(SNR)分布を,スタイリスティックな特徴が出現する雑音レベルに焦点を合わせるために,微調整時に高雑音レベルに積極的にシフトするスタイルフレンドリーなSNRサンプリング手法を提案する。
論文参考訳（メタデータ） (2024-11-22T08:29:25Z)
Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文参考訳（メタデータ） (2024-10-24T08:34:57Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文参考訳（メタデータ） (2024-05-24T07:19:40Z)
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文参考訳（メタデータ） (2024-04-03T13:34:09Z)
Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文参考訳（メタデータ） (2023-12-04T18:55:35Z)
StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。 T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文参考訳（メタデータ） (2023-09-04T19:16:46Z)
DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文参考訳（メタデータ） (2022-11-19T12:30:44Z)
Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文参考訳（メタデータ） (2022-05-19T13:11:24Z)
STALP: Style Transfer with Auxiliary Limited Pairing [36.23393954839379]
本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。本研究では,対象画像に対するリアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。
論文参考訳（メタデータ） (2021-10-20T11:38:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。