論文の概要: SubZero: Composing Subject, Style, and Action via Zero-Shot Personalization
- arxiv url: http://arxiv.org/abs/2502.19673v1
- Date: Thu, 27 Feb 2025 01:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:51.929107
- Title: SubZero: Composing Subject, Style, and Action via Zero-Shot Personalization
- Title(参考訳): SubZero:ゼロショットパーソナライゼーションによる主観、スタイル、アクションの構成
- Authors: Shubhankar Borse, Kartikeya Bhardwaj, Mohammad Reza Karimi Dastjerdi, Hyojin Park, Shreya Kadambi, Shobitha Shivakumar, Prathamesh Mandke, Ankita Nayak, Harris Teague, Munawar Hayat, Fatih Porikli,
- Abstract要約: 拡散モデルは、主題やスタイルのパーソナライズされた構成を含む、生成的なタスクにますます人気がある。
SubZeroは、どんなスタイルでも主題を生成し、微調整を必要とせずにアクションを実行する新しいフレームワークである。
提案手法は,最先端の作業に適した手法であるが,課題,スタイル,動作構成など,最先端の作業よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 46.75550543879637
- License:
- Abstract: Diffusion models are increasingly popular for generative tasks, including personalized composition of subjects and styles. While diffusion models can generate user-specified subjects performing text-guided actions in custom styles, they require fine-tuning and are not feasible for personalization on mobile devices. Hence, tuning-free personalization methods such as IP-Adapters have progressively gained traction. However, for the composition of subjects and styles, these works are less flexible due to their reliance on ControlNet, or show content and style leakage artifacts. To tackle these, we present SubZero, a novel framework to generate any subject in any style, performing any action without the need for fine-tuning. We propose a novel set of constraints to enhance subject and style similarity, while reducing leakage. Additionally, we propose an orthogonalized temporal aggregation scheme in the cross-attention blocks of denoising model, effectively conditioning on a text prompt along with single subject and style images. We also propose a novel method to train customized content and style projectors to reduce content and style leakage. Through extensive experiments, we show that our proposed approach, while suitable for running on-edge, shows significant improvements over state-of-the-art works performing subject, style and action composition.
- Abstract(参考訳): 拡散モデルは、主題やスタイルのパーソナライズされた構成を含む、生成的なタスクにますます人気がある。
拡散モデルは、カスタムスタイルでテキスト誘導アクションを実行するユーザ指定の被験者を生成することができるが、微調整が必要であり、モバイルデバイス上でのパーソナライズには適さない。
そのため、IPアダプタのようなチューニング不要なパーソナライズ手法が徐々に普及している。
しかし、主題やスタイルの構成については、ControlNetに依存しているため、あるいはコンテンツやスタイルのリークアーティファクトを表示するため、柔軟性が低い。
これらの課題に対処するために、我々はSubZeroを提案する。SubZeroは、どんなスタイルの科目でも生成し、微調整を必要とせず、あらゆるアクションを実行するための新しいフレームワークである。
本稿では,リークを低減しつつ,主題とスタイルの類似性を高めるための新しい制約セットを提案する。
さらに,1つの主題やスタイルの画像とともに,テキストプロンプトを効果的に条件付けることによって,認知モデルのクロスアテンションブロックにおける直交化時間アグリゲーション方式を提案する。
また、カスタマイズされたコンテンツやスタイルプロジェクタをトレーニングして、コンテンツやスタイルのリークを減らす方法を提案する。
実験により,提案手法は最先端の作業に適しているが,課題,スタイル,動作構成が最先端の作業よりも大幅に改善されたことを示す。
関連論文リスト
- DiffArtist: Towards Aesthetic-Aligned Diffusion Model Control for Training-free Text-Driven Stylization [19.5597806965592]
拡散モデルは、デノナイジングプロセス中にコンテンツとスタイルの生成を絡ませる。
DiffusionArtistは、拡散プロセス全体におけるコンテンツとスタイルの美的整合性制御を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation [4.1177497612346]
スタイル転送(Style Transfer)は、視覚的なスタイルを取り入れながら、オリジナルの本質を維持するイメージを作成するために設計された革新的なプロセスである。
InstantStyle-Plusは、ターゲットスタイルをシームレスに統合しながら、オリジナルコンテンツの整合性を優先するアプローチである。
論文 参考訳(メタデータ) (2024-06-30T18:05:33Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - FreeTuner: Any Subject in Any Style with Training-free Diffusion [17.18034002758044]
FreeTunerは、フレキシブルでトレーニングのない、作曲のパーソナライズのためのメソッドで、任意のユーザが提供する対象を、ユーザが提供するスタイルで生成することができる。
提案手法では, 生成過程を2段階に分けて, 概念の絡みを効果的に緩和する。
論文 参考訳(メタデータ) (2024-05-23T06:01:13Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。
本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。
本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文 参考訳(メタデータ) (2024-01-11T18:35:33Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。