論文の概要: AttriCtrl: Fine-Grained Control of Aesthetic Attribute Intensity in Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.02151v1
- Date: Mon, 04 Aug 2025 07:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.234544
- Title: AttriCtrl: Fine-Grained Control of Aesthetic Attribute Intensity in Diffusion Models
- Title(参考訳): AttriCtrl:拡散モデルにおける美的属性強度の微粒化制御
- Authors: Die Chen, Zhongjie Duan, Zhiwen Li, Cen Chen, Daoyuan Chen, Yaliang Li, Yinda Chen,
- Abstract要約: AttriCtrlは、美的属性の正確かつ継続的な制御のためのプラグイン・アンド・プレイフレームワークである。
我々は,事前学習された視覚言語モデルから意味的類似性を活用することで,抽象美学を定量化する。
一般的なオープンソースのコントロール可能な生成フレームワークと完全に互換性がある。
- 参考スコア(独自算出の注目度): 32.46570968627392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in text-to-image diffusion models have significantly enhanced both the visual fidelity and semantic controllability of generated images. However, fine-grained control over aesthetic attributes remains challenging, especially when users require continuous and intensity-specific adjustments. Existing approaches often rely on vague textual prompts, which are inherently ambiguous in expressing both the aesthetic semantics and the desired intensity, or depend on costly human preference data for alignment, limiting their scalability and practicality. To address these limitations, we propose AttriCtrl, a plug-and-play framework for precise and continuous control of aesthetic attributes. Specifically, we quantify abstract aesthetics by leveraging semantic similarity from pre-trained vision-language models, and employ a lightweight value encoder that maps scalar intensities in $[0,1]$ to learnable embeddings within diffusion-based generation. This design enables intuitive and customizable aesthetic manipulation, with minimal training overhead and seamless integration into existing generation pipelines. Extensive experiments demonstrate that AttriCtrl achieves accurate control over individual attributes as well as flexible multi-attribute composition. Moreover, it is fully compatible with popular open-source controllable generation frameworks, showcasing strong integration capability and practical utility across diverse generation scenarios.
- Abstract(参考訳): 近年のテキスト・画像拡散モデルにおけるブレークスルーにより、生成画像の視覚的忠実度と意味的制御性が著しく向上した。
しかし、特にユーザーが連続的かつ強度に比例した調整を必要とする場合、美的属性のきめ細かい制御は依然として困難である。
既存のアプローチは、しばしば曖昧なテキストのプロンプトに依存しており、それは本質的に美的意味論と所望の強度の両方を表現している。
これらの制約に対処するため,美的属性を正確にかつ連続的に制御するプラグイン・アンド・プレイ・フレームワークであるAttriCtrlを提案する。
具体的には,事前学習された視覚言語モデルからのセマンティックな類似性を利用して抽象美学を定量化し,スカラー強度を[0,1]$でマッピングする軽量な値エンコーダを用いて拡散モデル内の学習可能な埋め込みを行う。
この設計は直感的でカスタマイズ可能な美的操作を可能にし、トレーニングオーバーヘッドを最小限に抑え、既存の生成パイプラインにシームレスに統合する。
広範囲な実験により、AttriCtrlは個々の属性の正確な制御と柔軟な多属性合成を実現している。
さらに、人気のあるオープンソースのコントロール可能な生成フレームワークと完全に互換性があり、さまざまな生成シナリオにまたがる強力な統合機能と実用性を示している。
関連論文リスト
- Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting [60.15416769662556]
そこで本研究では,手書きサンプルの小さなセットから人型ブラシストローク生成を学習する問題について検討する。
Smooth Regularization (SmR) を用いた拡散型フレームワーク StrokeDiff を提案する。
学習したプリミティブをBézierベースの条件付けモジュールで制御可能であることを示す。
論文 参考訳(メタデータ) (2026-03-01T13:42:35Z) - Beyond the Black Box: Identifiable Interpretation and Control in Generative Models via Causal Minimality [52.57416398859353]
因果的最小性は、明確な因果的解釈と頑健でコンポーネント単位で識別可能な制御を持つ拡散視覚と自己回帰言語モデルの潜在表現を許容できることを示す。
我々は階層的選択モデルのための新しい理論的枠組みを導入し、より高レベルな概念は低レベルの変数の制約された構成から生まれる。
これらの因果的基礎を持つ概念は、きめ細かいモデルステアリングのレバーとして機能し、透明で信頼性の高いシステムへの道を開く。
論文 参考訳(メタデータ) (2025-12-11T14:59:14Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - Conditional Diffusion as Latent Constraints for Controllable Symbolic Music Generation [47.38557855930304]
シンボリック音楽生成モデルに対するプラグアンドプレイ遅延制約としての拡散過程の解法について検討する。
拡散駆動制約は従来の属性正規化や他の潜在制約アーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-11-10T14:46:10Z) - Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation [16.038598998902767]
テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトから高品質な画像を生成することに成功した。
本稿では,デノナイジングプロセスからインジェクションタイムステップを分離するフレキシブルな機能インジェクションフレームワークを提案する。
提案手法は,多種多様なゼロショット条件付きシナリオにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-03T16:56:15Z) - ExpertGen: Training-Free Expert Guidance for Controllable Text-to-Face Generation [49.294779074232686]
ExpertGenはトレーニング不要のフレームワークで、トレーニング済みのエキスパートモデルを活用して、細かいコントロールで生成をガイドする。
我々は、専門家モデルが高い精度で生成過程を導出できることを定性的かつ定量的に示す。
論文 参考訳(メタデータ) (2025-05-22T20:09:21Z) - InstaRevive: One-Step Image Enhancement via Dynamic Score Matching [66.97989469865828]
InstaReviveは、強力な生成能力を活用するためにスコアベースの拡散蒸留を利用する画像強調フレームワークである。
私たちのフレームワークは、さまざまな課題やデータセットにまたがって、高品質で視覚的に魅力的な結果を提供します。
論文 参考訳(メタデータ) (2025-04-22T01:19:53Z) - A Controllable Appearance Representation for Flexible Transfer and Editing [0.44241702149260353]
本稿では,コンパクトな潜在空間内での材料外観の解釈可能な表現を計算する手法を提案する。
この表現は、適応されたFacterVAEを用いて自己教師型で学習される。
本モデルは, 材料外観と照明を効果的に符号化することにより, 強い絡み合いと解釈可能性を示す。
論文 参考訳(メタデータ) (2025-04-21T11:29:06Z) - ICAS: IP Adapter and ControlNet-based Attention Structure for Multi-Subject Style Transfer Optimization [0.0]
ICASは効率的かつ制御可能なマルチオブジェクトスタイル転送のための新しいフレームワークである。
我々のフレームワークは、正確な局所的なスタイル合成とともに、忠実なグローバルなレイアウト維持を保証します。
ICASは、構造保存、スタイル整合性、推論効率において優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-04-17T10:48:11Z) - Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - Training-free Quantum-Inspired Image Edge Extraction Method [4.8188571652305185]
トレーニング不要で量子にインスパイアされたエッジ検出モデルを提案する。
提案手法は,古典的なソベルエッジ検出,シュリンガー波動方程式の洗練,ハイブリッドフレームワークを統合する。
トレーニングの必要性をなくすことで、モデルは軽量で多様なアプリケーションに適用できます。
論文 参考訳(メタデータ) (2025-01-31T07:24:38Z) - Learning from Pattern Completion: Self-supervised Controllable Generation [31.694486524155593]
本稿では,脳の連想力に寄与する神経機構にインスパイアされた,自己制御型制御可能生成(SCG)フレームワークを提案する。
実験により,モジュール型オートエンコーダは機能的特殊化を効果的に実現することが示された。
提案手法は,より難易度の高い高雑音シナリオにおいて優れたロバスト性を示すだけでなく,自己管理的な手法により,より有望なスケーラビリティの可能性を秘めている。
論文 参考訳(メタデータ) (2024-09-27T12:28:47Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - FilterPrompt: A Simple yet Efficient Approach to Guide Image Appearance Transfer in Diffusion Models [20.28288267660839]
FilterPromptは、制御可能な生成の効果を高めるためのアプローチである。
どんな拡散モデルにも適用可能で、ユーザーは特定の画像の特徴の表現を調整できる。
論文 参考訳(メタデータ) (2024-04-20T04:17:34Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。