論文の概要: Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization
- arxiv url: http://arxiv.org/abs/2403.19456v2
- Date: Sun, 31 Mar 2024 13:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:15:05.944677
- Title: Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization
- Title(参考訳): Break-for-Make: 構成可能なコンテンツスタイルのカスタマイズのためのモジュール型低ランク適応
- Authors: Yu Xu, Fan Tang, Juan Cao, Yuxin Zhang, Oliver Deussen, Weiming Dong, Jintao Li, Tong-Yee Lee,
- Abstract要約: コンテンツとスタイルのパラメータ空間を分離する学習フレームワークを提案する。
提案手法は,コンテンツスタイルとプロンプトのアライメントの観点から,最先端のシングル/マルチコンセプト学習パイプラインより優れている。
- 参考スコア(独自算出の注目度): 45.170565112586374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized generation paradigms empower designers to customize visual intellectual properties with the help of textual descriptions by tuning or adapting pre-trained text-to-image models on a few images. Recent works explore approaches for concurrently customizing both content and detailed visual style appearance. However, these existing approaches often generate images where the content and style are entangled. In this study, we reconsider the customization of content and style concepts from the perspective of parameter space construction. Unlike existing methods that utilize a shared parameter space for content and style, we propose a learning framework that separates the parameter space to facilitate individual learning of content and style, thereby enabling disentangled content and style. To achieve this goal, we introduce "partly learnable projection" (PLP) matrices to separate the original adapters into divided sub-parameter spaces. We propose "break-for-make" customization learning pipeline based on PLP, which is simple yet effective. We break the original adapters into "up projection" and "down projection", train content and style PLPs individually with the guidance of corresponding textual prompts in the separate adapters, and maintain generalization by employing a multi-correspondence projection learning strategy. Based on the adapters broken apart for separate training content and style, we then make the entity parameter space by reconstructing the content and style PLPs matrices, followed by fine-tuning the combined adapter to generate the target object with the desired appearance. Experiments on various styles, including textures, materials, and artistic style, show that our method outperforms state-of-the-art single/multiple concept learning pipelines in terms of content-style-prompt alignment.
- Abstract(参考訳): パーソナライズドジェネレーションパラダイムは、いくつかの画像上で事前訓練されたテキスト・ツー・イメージのモデルをチューニングまたは適応することにより、デザイナーがテキスト記述の助けを借りて視覚的知的プロパティをカスタマイズすることを可能にする。
最近の研究は、コンテンツと詳細な視覚スタイルの両方を同時にカスタマイズするためのアプローチを探っている。
しかし、これらの既存のアプローチは、しばしばコンテンツとスタイルが絡み合った画像を生成する。
本研究では,パラメータ空間の構成の観点から,コンテンツとスタイル概念のカスタマイズを再考する。
コンテンツとスタイルの共有パラメータ空間を利用する既存の手法とは違って,コンテンツとスタイルの個別学習を容易にするために,パラメータ空間を分離した学習フレームワークを提案する。
この目的を達成するために、元のアダプタを分割したサブパラメータ空間に分割する「部分学習可能な投影」(PLP)行列を導入する。
PLPに基づく"ブレーク・フォー・メイク"なカスタマイズ学習パイプラインを提案する。
我々は、元のアダプタを「アッププロジェクション」と「ダウンプロジェクション」に分割し、個別に、個別のアダプタで対応するテキストプロンプトのガイダンスを用いて、コンテンツとスタイルのLPをトレーニングし、マルチ対応予測学習戦略を用いて一般化を維持する。
個別のトレーニング内容とスタイルのために分割されたアダプタに基づいて、コンテンツとスタイルのLPPを再構成し、その後、組み合わせたアダプタを微調整し、ターゲットオブジェクトを所望の外観で生成することで、エンティティパラメータ空間を作成する。
テクスチャ,素材,芸術的スタイルなど,さまざまなスタイルの実験により,本手法は,コンテンツスタイルとプロンプトのアライメントの観点から,最先端のシングル/マルチコンセプト学習パイプラインより優れていることが示された。
関連論文リスト
- DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation [4.1177497612346]
スタイル転送(Style Transfer)は、視覚的なスタイルを取り入れながら、オリジナルの本質を維持するイメージを作成するために設計された革新的なプロセスである。
InstantStyle-Plusは、ターゲットスタイルをシームレスに統合しながら、オリジナルコンテンツの整合性を優先するアプローチである。
論文 参考訳(メタデータ) (2024-06-30T18:05:33Z) - Customizing Text-to-Image Models with a Single Image Pair [47.49970731632113]
芸術再解釈(Art repretation)は、参照された作品のバリエーションを作成し、異なる芸術様式を示すペアアートを作るプラクティスである。
Pair Customizationは1つの画像対からスタイリスティックな違いを学習し、取得したスタイルを生成プロセスに適用する新しいカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-05-02T17:59:52Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。