Fugu-MT 論文翻訳(概要): Training-Free Sketch-Guided Diffusion with Latent Optimization

論文の概要: Training-Free Sketch-Guided Diffusion with Latent Optimization

arxiv url: http://arxiv.org/abs/2409.00313v1
Date: Sat, 31 Aug 2024 00:44:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 15:37:00.781409
Title: Training-Free Sketch-Guided Diffusion with Latent Optimization
Title（参考訳）: 遅延最適化による無トレーニングスケッチ誘導拡散
Authors: Sandra Zhang Ding, Jiafeng Mao, Kiyoharu Aizawa,
Abstract要約: 本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
参考スコア（独自算出の注目度）: 22.94468603089249
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Based on recent advanced diffusion models, Text-to-image (T2I) generation models have demonstrated their capabilities in generating diverse and high-quality images. However, leveraging their potential for real-world content creation, particularly in providing users with precise control over the image generation result, poses a significant challenge. In this paper, we propose an innovative training-free pipeline that extends existing text-to-image generation models to incorporate a sketch as an additional condition. To generate new images with a layout and structure closely resembling the input sketch, we find that these core features of a sketch can be tracked with the cross-attention maps of diffusion models. We introduce latent optimization, a method that refines the noisy latent at each intermediate step of the generation process using cross-attention maps to ensure that the generated images closely adhere to the desired structure outlined in the reference sketch. Through latent optimization, our method enhances the fidelity and accuracy of image generation, offering users greater control and customization options in content creation.
Abstract（参考訳）: 最近の高度な拡散モデルに基づいて、テキスト・ツー・イメージ(T2I)生成モデルは、多彩で高品質な画像を生成する能力を示した。しかし、現実世界のコンテンツ制作、特に画像生成結果の正確な制御をユーザに提供する可能性を活用することは、大きな課題となる。本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的な学習自由パイプラインを提案する。入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。本稿では,生成プロセスの各中間段階における雑音を補正する遅延最適化手法について紹介する。遅延最適化により,画像生成の忠実度と精度が向上し,コンテンツ作成における制御とカスタマイズの選択肢が向上する。

関連論文リスト

Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文参考訳（メタデータ） (2025-05-27T17:50:47Z)
Training-free Stylized Text-to-Image Generation with Fast Inference [24.55785152141884]
本稿では,事前学習した大規模拡散モデルを利用した新しいスタイリング画像生成手法を提案する。我々は、潜在整合モデルの自己整合性を利用して、代表的なスタイル統計を抽出する。次に、モデルが最も関連するスタイルパターンを問合せできる自己意図の標準的な混合を紹介します。
論文参考訳（メタデータ） (2025-05-25T09:38:23Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。 SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。 ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文参考訳（メタデータ） (2025-02-12T18:57:12Z)
High-Resolution Image Synthesis via Next-Token Prediction [19.97037318862443]
連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。次世代の予測により,最先端の高精細画像合成を実現する。
論文参考訳（メタデータ） (2024-11-22T09:08:58Z)
Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文参考訳（メタデータ） (2024-09-30T04:59:12Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-07-09T08:11:53Z)
FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:33Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文参考訳（メタデータ） (2023-12-14T08:42:26Z)
Reference-based Image Composition with Sketch via Structure-aware Diffusion Model [38.1193912666578]
本稿では,参照画像とともに,スケッチを新しいモーダルとして組み込んだマルチインプット条件画像合成モデルを提案する。スケッチを用いたエッジレベル制御により,画像サブパートの編集や編集が可能である。筆者らのフレームワークは,スケッチ指導を維持しつつ,参照画像を用いて学習済み拡散モデルを微調整し,欠落した領域を完了させる。
論文参考訳（メタデータ） (2023-03-31T06:12:58Z)
End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文参考訳（メタデータ） (2023-03-23T22:43:52Z)
BIGRoC: Boosting Image Generation via a Robust Classifier [27.66648389933265]
生成した画像の画質と分布の忠実度を改善するための一般的なモデルに依存しない手法を提案する。 BIGRoCと呼ばれるこの手法は、与えられたロバストな分類器の誘導による後処理手順に基づいている。
論文参考訳（メタデータ） (2021-08-08T18:05:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。