論文の概要: Stencil: Subject-Driven Generation with Context Guidance
- arxiv url: http://arxiv.org/abs/2509.17120v1
- Date: Sun, 21 Sep 2025 15:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.126897
- Title: Stencil: Subject-Driven Generation with Context Guidance
- Title(参考訳): Stencil: コンテキストガイダンスによる主題駆動型生成
- Authors: Gordon Chen, Ziqi Huang, Cheston Tan, Ziwei Liu,
- Abstract要約: 最近のテキスト・ツー・イメージ拡散モデルでは、テキストプロンプトから印象的な視覚を生成することができるが、世代やコンテキスト間で主観的一貫性を維持するのに失敗することが多い。
本稿では、推論中に2つの拡散モデルを共同で使用する新しいフレームワークであるStencilを紹介する。
Stencilは、高忠実で新しい被写体を1分以内で生成し、最先端のパフォーマンスを提供し、被写体駆動世代における新しいベンチマークを設定する。
- 参考スコア(独自算出の注目度): 46.39238993793864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image diffusion models can generate striking visuals from text prompts, but they often fail to maintain subject consistency across generations and contexts. One major limitation of current fine-tuning approaches is the inherent trade-off between quality and efficiency. Fine-tuning large models improves fidelity but is computationally expensive, while fine-tuning lightweight models improves efficiency but compromises image fidelity. Moreover, fine-tuning pre-trained models on a small set of images of the subject can damage the existing priors, resulting in suboptimal results. To this end, we present Stencil, a novel framework that jointly employs two diffusion models during inference. Stencil efficiently fine-tunes a lightweight model on images of the subject, while a large frozen pre-trained model provides contextual guidance during inference, injecting rich priors to enhance generation with minimal overhead. Stencil excels at generating high-fidelity, novel renditions of the subject in less than a minute, delivering state-of-the-art performance and setting a new benchmark in subject-driven generation.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ拡散モデルでは、テキストプロンプトから印象的な視覚を生成できるが、世代やコンテキスト間で主観的一貫性を維持するのに失敗することが多い。
現在の微調整アプローチの1つの大きな制限は、品質と効率の間の本質的にのトレードオフである。
微調整の大型モデルでは忠実さが向上するが、計算コストは高く、微調整の軽量モデルでは効率が向上するが、画像の忠実さを損なう。
さらに、被検体の小さな画像集合上の微調整事前学習モデルは、既存の先行画像に損傷を与える可能性があり、その結果、準最適結果をもたらす。
この目的のために、推論中に2つの拡散モデルを共同で使用する新しいフレームワークであるStencilを提案する。
Stencilは、被写体画像の軽量モデルを効率的に微調整する一方、大きな凍結事前学習モデルは推論中にコンテキストガイダンスを提供し、豊富な事前を注入し、最小限のオーバーヘッドで生成を増強する。
Stencilは、高忠実で新しい被写体を1分以内で生成し、最先端のパフォーマンスを提供し、被写体駆動世代における新しいベンチマークを設定する。
関連論文リスト
- Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation [20.67671141789497]
主観駆動型生成のための最初のVARに基づくアプローチを提案する。
初期の段階は後者の段階よりも主題の生成に大きな影響を及ぼすことがわかった。
そこで本研究では,主観的関連情報に焦点をあてるモデルを促進するために,粗い分解能を優先するスケールワイド重み付けチューニングを提案する。
論文 参考訳(メタデータ) (2025-04-03T14:12:55Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - FrameNeRF: A Simple and Efficient Framework for Few-shot Novel View
Synthesis [25.356376402671536]
FrameNeRFは、高速なトレーニング速度と高速なレンダリング品質を備えた市販の高速高忠実度NeRFモデルを、数発の新規ビュー合成タスクに適用するように設計されている。
論文 参考訳(メタデータ) (2024-02-22T14:41:02Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。