論文の概要: AttriCtrl: Fine-Grained Control of Aesthetic Attribute Intensity in Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.02151v1
- Date: Mon, 04 Aug 2025 07:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.234544
- Title: AttriCtrl: Fine-Grained Control of Aesthetic Attribute Intensity in Diffusion Models
- Title(参考訳): AttriCtrl:拡散モデルにおける美的属性強度の微粒化制御
- Authors: Die Chen, Zhongjie Duan, Zhiwen Li, Cen Chen, Daoyuan Chen, Yaliang Li, Yinda Chen,
- Abstract要約: AttriCtrlは、美的属性の正確かつ継続的な制御のためのプラグイン・アンド・プレイフレームワークである。
我々は,事前学習された視覚言語モデルから意味的類似性を活用することで,抽象美学を定量化する。
一般的なオープンソースのコントロール可能な生成フレームワークと完全に互換性がある。
- 参考スコア(独自算出の注目度): 32.46570968627392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in text-to-image diffusion models have significantly enhanced both the visual fidelity and semantic controllability of generated images. However, fine-grained control over aesthetic attributes remains challenging, especially when users require continuous and intensity-specific adjustments. Existing approaches often rely on vague textual prompts, which are inherently ambiguous in expressing both the aesthetic semantics and the desired intensity, or depend on costly human preference data for alignment, limiting their scalability and practicality. To address these limitations, we propose AttriCtrl, a plug-and-play framework for precise and continuous control of aesthetic attributes. Specifically, we quantify abstract aesthetics by leveraging semantic similarity from pre-trained vision-language models, and employ a lightweight value encoder that maps scalar intensities in $[0,1]$ to learnable embeddings within diffusion-based generation. This design enables intuitive and customizable aesthetic manipulation, with minimal training overhead and seamless integration into existing generation pipelines. Extensive experiments demonstrate that AttriCtrl achieves accurate control over individual attributes as well as flexible multi-attribute composition. Moreover, it is fully compatible with popular open-source controllable generation frameworks, showcasing strong integration capability and practical utility across diverse generation scenarios.
- Abstract(参考訳): 近年のテキスト・画像拡散モデルにおけるブレークスルーにより、生成画像の視覚的忠実度と意味的制御性が著しく向上した。
しかし、特にユーザーが連続的かつ強度に比例した調整を必要とする場合、美的属性のきめ細かい制御は依然として困難である。
既存のアプローチは、しばしば曖昧なテキストのプロンプトに依存しており、それは本質的に美的意味論と所望の強度の両方を表現している。
これらの制約に対処するため,美的属性を正確にかつ連続的に制御するプラグイン・アンド・プレイ・フレームワークであるAttriCtrlを提案する。
具体的には,事前学習された視覚言語モデルからのセマンティックな類似性を利用して抽象美学を定量化し,スカラー強度を[0,1]$でマッピングする軽量な値エンコーダを用いて拡散モデル内の学習可能な埋め込みを行う。
この設計は直感的でカスタマイズ可能な美的操作を可能にし、トレーニングオーバーヘッドを最小限に抑え、既存の生成パイプラインにシームレスに統合する。
広範囲な実験により、AttriCtrlは個々の属性の正確な制御と柔軟な多属性合成を実現している。
さらに、人気のあるオープンソースのコントロール可能な生成フレームワークと完全に互換性があり、さまざまな生成シナリオにまたがる強力な統合機能と実用性を示している。
関連論文リスト
- RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation [16.038598998902767]
テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトから高品質な画像を生成することに成功した。
本稿では,デノナイジングプロセスからインジェクションタイムステップを分離するフレキシブルな機能インジェクションフレームワークを提案する。
提案手法は,多種多様なゼロショット条件付きシナリオにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-03T16:56:15Z) - ExpertGen: Training-Free Expert Guidance for Controllable Text-to-Face Generation [49.294779074232686]
ExpertGenはトレーニング不要のフレームワークで、トレーニング済みのエキスパートモデルを活用して、細かいコントロールで生成をガイドする。
我々は、専門家モデルが高い精度で生成過程を導出できることを定性的かつ定量的に示す。
論文 参考訳(メタデータ) (2025-05-22T20:09:21Z) - InstaRevive: One-Step Image Enhancement via Dynamic Score Matching [66.97989469865828]
InstaReviveは、強力な生成能力を活用するためにスコアベースの拡散蒸留を利用する画像強調フレームワークである。
私たちのフレームワークは、さまざまな課題やデータセットにまたがって、高品質で視覚的に魅力的な結果を提供します。
論文 参考訳(メタデータ) (2025-04-22T01:19:53Z) - A Controllable Appearance Representation for Flexible Transfer and Editing [0.44241702149260353]
本稿では,コンパクトな潜在空間内での材料外観の解釈可能な表現を計算する手法を提案する。
この表現は、適応されたFacterVAEを用いて自己教師型で学習される。
本モデルは, 材料外観と照明を効果的に符号化することにより, 強い絡み合いと解釈可能性を示す。
論文 参考訳(メタデータ) (2025-04-21T11:29:06Z) - ICAS: IP Adapter and ControlNet-based Attention Structure for Multi-Subject Style Transfer Optimization [0.0]
ICASは効率的かつ制御可能なマルチオブジェクトスタイル転送のための新しいフレームワークである。
我々のフレームワークは、正確な局所的なスタイル合成とともに、忠実なグローバルなレイアウト維持を保証します。
ICASは、構造保存、スタイル整合性、推論効率において優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-04-17T10:48:11Z) - Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - Training-free Quantum-Inspired Image Edge Extraction Method [4.8188571652305185]
トレーニング不要で量子にインスパイアされたエッジ検出モデルを提案する。
提案手法は,古典的なソベルエッジ検出,シュリンガー波動方程式の洗練,ハイブリッドフレームワークを統合する。
トレーニングの必要性をなくすことで、モデルは軽量で多様なアプリケーションに適用できます。
論文 参考訳(メタデータ) (2025-01-31T07:24:38Z) - Learning from Pattern Completion: Self-supervised Controllable Generation [31.694486524155593]
本稿では,脳の連想力に寄与する神経機構にインスパイアされた,自己制御型制御可能生成(SCG)フレームワークを提案する。
実験により,モジュール型オートエンコーダは機能的特殊化を効果的に実現することが示された。
提案手法は,より難易度の高い高雑音シナリオにおいて優れたロバスト性を示すだけでなく,自己管理的な手法により,より有望なスケーラビリティの可能性を秘めている。
論文 参考訳(メタデータ) (2024-09-27T12:28:47Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - FilterPrompt: A Simple yet Efficient Approach to Guide Image Appearance Transfer in Diffusion Models [20.28288267660839]
FilterPromptは、制御可能な生成の効果を高めるためのアプローチである。
どんな拡散モデルにも適用可能で、ユーザーは特定の画像の特徴の表現を調整できる。
論文 参考訳(メタデータ) (2024-04-20T04:17:34Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。