論文の概要: SemanticControl: A Training-Free Approach for Handling Loosely Aligned Visual Conditions in ControlNet
- arxiv url: http://arxiv.org/abs/2509.21938v1
- Date: Fri, 26 Sep 2025 06:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.231863
- Title: SemanticControl: A Training-Free Approach for Handling Loosely Aligned Visual Conditions in ControlNet
- Title(参考訳): SemanticControl: ControlNetにおける視覚条件の疎調整のためのトレーニング不要アプローチ
- Authors: Woosung Joung, Daewon Chae, Jinkyu Kim,
- Abstract要約: ControlNetは、深度やエッジマップなどの視覚的条件を組み込むことで、テキストから画像への拡散モデルにおける詳細な空間制御を可能にした。
現在のコントロールネットモデルは、ゆるやかに整列された視覚的条件を使用するのに苦労しており、しばしばテキストの忠実度や視覚的アーティファクトが低下する。
本研究では,意味論的に関係のある視覚条件を効果的に活用するためのトレーニング不要なSemanticControlを提案する。
- 参考スコア(独自算出の注目度): 15.717577774944841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ControlNet has enabled detailed spatial control in text-to-image diffusion models by incorporating additional visual conditions such as depth or edge maps. However, its effectiveness heavily depends on the availability of visual conditions that are precisely aligned with the generation goal specified by text prompt-a requirement that often fails in practice, especially for uncommon or imaginative scenes. For example, generating an image of a cat cooking in a specific pose may be infeasible due to the lack of suitable visual conditions. In contrast, structurally similar cues can often be found in more common settings-for instance, poses of humans cooking are widely available and can serve as rough visual guides. Unfortunately, existing ControlNet models struggle to use such loosely aligned visual conditions, often resulting in low text fidelity or visual artifacts. To address this limitation, we propose SemanticControl, a training-free method for effectively leveraging misaligned but semantically relevant visual conditions. Our approach adaptively suppresses the influence of the visual condition where it conflicts with the prompt, while strengthening guidance from the text. The key idea is to first run an auxiliary denoising process using a surrogate prompt aligned with the visual condition (e.g., "a human playing guitar" for a human pose condition) to extract informative attention masks, and then utilize these masks during the denoising of the actual target prompt (e.g., cat playing guitar). Experimental results demonstrate that our method improves performance under loosely aligned conditions across various conditions, including depth maps, edge maps, and human skeletons, outperforming existing baselines. Our code is available at https://mung3477.github.io/semantic-control.
- Abstract(参考訳): ControlNetは、深度やエッジマップなどの視覚的条件を組み込むことで、テキストから画像への拡散モデルにおける詳細な空間制御を可能にした。
しかし、その有効性は、テキストプロンプトによって指定された生成目標と正確に一致した視覚条件の可用性に大きく依存する。
例えば、特定のポーズで調理する猫の画像を生成することは、適切な視覚条件が欠如しているため、不可能である可能性がある。
対照的に、構造的に類似した手がかりは、より一般的な設定でしばしば見られる。例えば、人間の料理のポーズは広く利用でき、粗いビジュアルガイドとして機能する。
残念ながら、既存のControlNetモデルは、そのようなゆるやかに整合した視覚的条件の使用に苦労しており、しばしばテキストの忠実度や視覚的アーティファクトが低下する。
この制限に対処するために,セマンティック・コントロル(SemanticControl)を提案する。
本手法は,テキストからのガイダンスを強化しつつ,プロンプトと矛盾する視覚状態の影響を適応的に抑制する。
鍵となる考え方は、まず視覚状態(例えば、人間のポーズ状態の「人間のギター」)と整合したサロゲートプロンプトを用いて補助的なデノナイジングプロセスを実行し、次に、実際のターゲットプロンプト(例えば、猫のギター)のデノナイジング時にこれらのマスクを利用することである。
実験により, 深度マップ, エッジマップ, 人体骨格など, 様々な条件において, ゆるやかに整合した条件下での性能向上を図った。
私たちのコードはhttps://mung3477.github.io/semantic-controlで利用可能です。
関連論文リスト
- ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps [5.836227628651603]
本稿では,大規模言語モデル,オープンボキャブラリ検出器,クロスアテンションマップ,インスタンスレベルの画像操作のための拡散U-Netを活用するパイプラインを提案する。
提案手法は,プロンプトに記述されたオブジェクトと生成画像に存在するオブジェクトを検知し,広範囲なトレーニングや入力マスクを使わずに正確な操作を可能にする。
論文 参考訳(メタデータ) (2025-01-23T19:26:14Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
まず、VLLMに対して、視覚的文脈に関連して、被験者の明らかな感情を自然言語で記述するように促す。
第二に、記述は視覚入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions [59.53867290769282]
テキストプロンプトに適応するための粗い視覚条件を修正するために,SmartControlと呼ばれる新しいT2I生成手法を提案する。
SmartControlのキーとなる考え方は、テキストプロンプトと矛盾する領域の視覚状態を緩和することです。
4つの典型的な視覚条件に対する実験は、我々のSmartControlが最先端技術に対して有効であることを明確に示している。
論文 参考訳(メタデータ) (2024-04-09T16:53:43Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文 参考訳(メタデータ) (2023-08-11T09:15:22Z) - VBLC: Visibility Boosting and Logit-Constraint Learning for Domain
Adaptive Semantic Segmentation under Adverse Conditions [31.992504022101215]
正常な視覚条件で訓練されたモデルを用いて、悪条件下でのドメインを対象とするモデルを一般化することは、実用システムにおいて要求される。
本稿では,VBLC(Visibility Boosting and Logit-Constraint Learning)を提案する。
VBLCは、基準画像を取り除き、同時に有害な条件の混合を解消する可能性を探る。
論文 参考訳(メタデータ) (2022-11-22T13:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。