論文の概要: A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model
- arxiv url: http://arxiv.org/abs/2504.06144v1
- Date: Tue, 08 Apr 2025 15:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:35.408124
- Title: A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model
- Title(参考訳): スケールワイド自己回帰モデルを用いた学習自由スタイル整列画像生成
- Authors: Jihun Park, Jongmin Gim, Kyoungmin Lee, Minseok Oh, Minwoo Choi, Jaeyeul Kim, Woo Chool Park, Sunghoon Im,
- Abstract要約: 本稿では,スケールワイド自己回帰モデルを利用した学習自由なスタイル整列画像生成手法を提案する。
提案手法は競合するアプローチに匹敵する品質を示し,スタイルアライメントを大幅に改善し,高速モデルよりも6倍高速な推論速度を実現する。
- 参考スコア(独自算出の注目度): 11.426771898890998
- License:
- Abstract: We present a training-free style-aligned image generation method that leverages a scale-wise autoregressive model. While large-scale text-to-image (T2I) models, particularly diffusion-based methods, have demonstrated impressive generation quality, they often suffer from style misalignment across generated image sets and slow inference speeds, limiting their practical usability. To address these issues, we propose three key components: initial feature replacement to ensure consistent background appearance, pivotal feature interpolation to align object placement, and dynamic style injection, which reinforces style consistency using a schedule function. Unlike previous methods requiring fine-tuning or additional training, our approach maintains fast inference while preserving individual content details. Extensive experiments show that our method achieves generation quality comparable to competing approaches, significantly improves style alignment, and delivers inference speeds over six times faster than the fastest model.
- Abstract(参考訳): 本稿では,スケールワイド自己回帰モデルを利用した学習自由なスタイル整列画像生成手法を提案する。
大規模なテキスト・ツー・イメージ(T2I)モデル、特に拡散ベースの手法は、印象的な生成品質を示してきたが、しばしば生成された画像集合間のスタイルのずれと推論速度の遅さに悩まされ、実用的使用性を制限している。
これらの課題に対処するために,初期機能置換による背景の整合性確保,オブジェクト配置の整合性向上のための重要な特徴補間,スケジュール関数を用いたスタイル整合性強化のための動的スタイルインジェクションという,3つの重要なコンポーネントを提案する。
微調整や追加の訓練を必要とする従来の方法とは異なり、我々の手法は個々のコンテンツの詳細を保存しながら高速な推論を維持する。
大規模な実験により,提案手法は競合するアプローチに匹敵する生成品質を実現し,スタイルアライメントを大幅に改善し,高速モデルよりも6倍高速な推論速度を実現することが示された。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Is This Loss Informative? Faster Text-to-Image Customization by Tracking
Objective Dynamics [31.15864240403093]
本研究では,人気テキスト対画像パーソナライズ手法のトレーニングダイナミクスについて検討し,それらを高速化することを目的とした。
本稿では,一定組の入力に対して,正規学習目標の計算のみを必要とする,簡単な早期停止基準を提案する。
48の異なる概念に対する安定拡散実験と3つのパーソナライズ手法により,本手法の競争性能を実証した。
論文 参考訳(メタデータ) (2023-02-09T18:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。