論文の概要: Style-Friendly SNR Sampler for Style-Driven Generation
- arxiv url: http://arxiv.org/abs/2411.14793v2
- Date: Thu, 05 Dec 2024 04:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:37:11.337127
- Title: Style-Friendly SNR Sampler for Style-Driven Generation
- Title(参考訳): スタイル駆動型生成のためのスタイルフレンドリーSNRサンプリング
- Authors: Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon,
- Abstract要約: 参照画像による微調整は最も有望な手法であるが、しばしば事前訓練に使用する目標と雑音レベルの分布を盲目的に利用する。
本研究では,SNR分布を微調整時に高雑音レベルに積極的にシフトさせるSNRサンプリング器を提案する。
これにより、モデルは独自のスタイルをキャプチャし、より高いスタイルアライメントで画像を生成することができる。
- 参考スコア(独自算出の注目度): 41.59110395848738
- License:
- Abstract: Recent large-scale diffusion models generate high-quality images but struggle to learn new, personalized artistic styles, which limits the creation of unique style templates. Fine-tuning with reference images is the most promising approach, but it often blindly utilizes objectives and noise level distributions used for pre-training, leading to suboptimal style alignment. We propose the Style-friendly SNR sampler, which aggressively shifts the signal-to-noise ratio (SNR) distribution toward higher noise levels during fine-tuning to focus on noise levels where stylistic features emerge. This enables models to better capture unique styles and generate images with higher style alignment. Our method allows diffusion models to learn and share new "style templates", enhancing personalized content creation. We demonstrate the ability to generate styles such as personal watercolor paintings, minimal flat cartoons, 3D renderings, multi-panel images, and memes with text, thereby broadening the scope of style-driven generation.
- Abstract(参考訳): 最近の大規模拡散モデルは高品質な画像を生成するが、ユニークなスタイルテンプレートの作成を制限する、新しいパーソナライズされた芸術スタイルを学ぶのに苦労している。
参照画像による微調整は最も有望な手法であるが、しばしば目標と雑音レベルの分布を盲目的に利用し、最適化されたスタイルのアライメントをもたらす。
そこで我々は,SNRの信号対雑音比(SNR)分布を,スタイリスティックな特徴が出現する雑音レベルに焦点を合わせるために,微調整時に高雑音レベルに積極的にシフトするスタイルフレンドリーなSNRサンプリング手法を提案する。
これにより、モデルは独自のスタイルをキャプチャし、より高いスタイルアライメントで画像を生成することができる。
提案手法では,拡散モデルを用いて新しい「スタイルテンプレート」を学習し,共有し,パーソナライズされたコンテンツ作成を促進できる。
個人用水彩画,ミニマルフラット漫画,3次元レンダリング,マルチパネル画像,ミームなどのスタイルをテキストで生成できることを示し,スタイル駆動型生成の範囲を広げる。
関連論文リスト
- SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-09-05T06:27:32Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style Adviser [19.466860144772674]
本稿では,単一の参照画像のみを用いて高忠実度スタイリング画像を生成する手法であるInstaStyleを提案する。
提案手法は,スタイリングされた参照画像からの逆ノイズが本質的にスタイル信号を運ぶことに基づく。
本稿では,参照画像のスタイル記述の精度を高めるために,プロンプトリファインメントによる学習可能なスタイルトークンを提案する。
論文 参考訳(メタデータ) (2023-11-25T14:38:54Z) - Customize StyleGAN with One Hand Sketch [0.0]
本稿では,単一のユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。
我々は、エネルギーベース学習により、事前学習したStyleGANモデルの潜在空間における条件分布を学習する。
我々のモデルは、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
論文 参考訳(メタデータ) (2023-10-29T09:32:33Z) - Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image
Generation [13.894251782142584]
GLIDE や DALLE-2 のような拡散ベースのテキスト・画像生成モデルは近年広く成功している。
本稿では,参照画像でガイドされた任意のスタイルを用いた画像生成を支援する新しいスタイルガイダンス手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T20:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。