論文の概要: Universal Few-Shot Spatial Control for Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.07530v1
- Date: Tue, 09 Sep 2025 09:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.246607
- Title: Universal Few-Shot Spatial Control for Diffusion Models
- Title(参考訳): 拡散モデルのためのユニバーサルファウショット空間制御
- Authors: Kiet T. Nguyen, Chanhuyk Lee, Donggyun Kim, Dong Hoon Lee, Seunghoon Hong,
- Abstract要約: 本稿では,新しい空間条件を一般化可能な多目的小ショット制御アダプタであるUniversal Few-Shot Control (UFC)を提案する。
UFCはタスク固有の制御機能を構築し、マッチングメカニズムによってインスタンス化され、タスク固有のパラメータの小さなセットが更新される。
UFCは、様々な制御タスクにおいて、完全に教師されたベースラインと競合する性能を達成する。
- 参考スコア(独自算出の注目度): 18.231204459518896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial conditioning in pretrained text-to-image diffusion models has significantly improved fine-grained control over the structure of generated images. However, existing control adapters exhibit limited adaptability and incur high training costs when encountering novel spatial control conditions that differ substantially from the training tasks. To address this limitation, we propose Universal Few-Shot Control (UFC), a versatile few-shot control adapter capable of generalizing to novel spatial conditions. Given a few image-condition pairs of an unseen task and a query condition, UFC leverages the analogy between query and support conditions to construct task-specific control features, instantiated by a matching mechanism and an update on a small set of task-specific parameters. Experiments on six novel spatial control tasks show that UFC, fine-tuned with only 30 annotated examples of novel tasks, achieves fine-grained control consistent with the spatial conditions. Notably, when fine-tuned with 0.1% of the full training data, UFC achieves competitive performance with the fully supervised baselines in various control tasks. We also show that UFC is applicable agnostically to various diffusion backbones and demonstrate its effectiveness on both UNet and DiT architectures. Code is available at https://github.com/kietngt00/UFC.
- Abstract(参考訳): 事前訓練されたテキスト・画像拡散モデルにおける空間条件付けは、生成された画像の構造に対するきめ細かい制御を大幅に改善した。
しかし、既存の制御アダプタは、訓練作業と大きく異なる新しい空間制御条件に遭遇した場合、適応性に制限があり、高い訓練コストがかかる。
この制限に対処するため,新しい空間条件に一般化可能な多目的数ショット制御アダプタであるUniversal Few-Shot Control (UFC)を提案する。
未確認のタスクとクエリ条件のいくつかのイメージ条件ペアが与えられた後、UFCはクエリとサポート条件の類似を利用してタスク固有の制御機能を構築し、マッチング機構によってインスタンス化され、タスク固有のパラメータの小さなセットが更新される。
6つの新しい空間制御タスクの実験により、UFCは30個の注釈付きタスクの例で微調整され、空間条件に整合したきめ細かい制御が達成された。
特に、フルトレーニングデータの0.1%を微調整すると、UFCは様々な制御タスクにおいて完全に監督されたベースラインとの競争性能を達成する。
また,UFC は様々な拡散バックボーンに適用可能であることを示し,UNet および DiT アーキテクチャ上での有効性を示した。
コードはhttps://github.com/kietngt00/UFCで入手できる。
関連論文リスト
- DivControl: Knowledge Diversion for Controllable Image Generation [38.166949036830886]
DivControlは、統合制御可能な生成のための分解可能な事前トレーニングフレームワークである。
最先端の制御性を36.4$timesのトレーニングコストで実現している。
また、目に見えない条件で強力なゼロショットと少数ショットのパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-07-31T15:00:15Z) - DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文 参考訳(メタデータ) (2024-04-15T17:45:36Z) - FreeControl: Training-Free Spatial Control of Any Text-to-Image
Diffusion Model with Any Condition [41.92032568474062]
FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。
複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。
トレーニングベースのアプローチで、競争力のある合成品質を実現する。
論文 参考訳(メタデータ) (2023-12-12T18:59:14Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。