論文の概要: Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion
- arxiv url: http://arxiv.org/abs/2404.14768v1
- Date: Tue, 23 Apr 2024 06:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:10:30.526232
- Title: Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion
- Title(参考訳): 学習用マスク誘導拡散による視覚制御によるプロンプト追従の促進
- Authors: Hongyu Chen, Yiqi Gao, Min Zhou, Peng Wang, Xubin Li, Tiezheng Ge, Bo Zheng,
- Abstract要約: 視覚制御によるプロンプト追従を強化するために,Mask-guided Prompt following (MGPF) というトレーニングフリーアプローチを提案する。
MGPFの有効性と優位性は、総合的な定量的および定性的実験によって検証される。
- 参考スコア(独自算出の注目度): 27.61734719689046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, integrating visual controls into text-to-image~(T2I) models, such as ControlNet method, has received significant attention for finer control capabilities. While various training-free methods make efforts to enhance prompt following in T2I models, the issue with visual control is still rarely studied, especially in the scenario that visual controls are misaligned with text prompts. In this paper, we address the challenge of ``Prompt Following With Visual Control" and propose a training-free approach named Mask-guided Prompt Following (MGPF). Object masks are introduced to distinct aligned and misaligned parts of visual controls and prompts. Meanwhile, a network, dubbed as Masked ControlNet, is designed to utilize these object masks for object generation in the misaligned visual control region. Further, to improve attribute matching, a simple yet efficient loss is designed to align the attention maps of attributes with object regions constrained by ControlNet and object masks. The efficacy and superiority of MGPF are validated through comprehensive quantitative and qualitative experiments.
- Abstract(参考訳): 近年、制御ネット法のようなテキスト・トゥ・イメージ・〜(T2I)モデルへの視覚的制御の統合は、より細かい制御機能に対して大きな注目を集めている。
T2Iモデルにおけるプロンプトの強化には様々なトレーニング不要な方法があるが、特にテキストプロンプトと正しく一致しない場合、視覚制御の問題はまだ研究されていない。
本稿では,「Prompt Following With Visual Control」の課題に対処し,Mask-guided Prompt Following (MGPF) というトレーニング不要のアプローチを提案する。
オブジェクトマスクは、視覚制御とプロンプトの異なる整列と不整合の部分に導入される。
一方、Masked ControlNetと呼ばれるネットワークは、これらのオブジェクトマスクを、不整合視覚制御領域におけるオブジェクト生成に利用するように設計されている。
さらに、属性マッチングを改善するために、属性のアテンションマップと、ControlNetやオブジェクトマスクによって制約されたオブジェクト領域を整列するように、シンプルで効率的なロスを設計する。
MGPFの有効性と優位性は、総合的な定量的および定性的実験によって検証される。
関連論文リスト
- LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps [5.836227628651603]
本稿では,大規模言語モデル,オープンボキャブラリ検出器,クロスアテンションマップ,インスタンスレベルの画像操作のための拡散U-Netを活用するパイプラインを提案する。
提案手法は,プロンプトに記述されたオブジェクトと生成画像に存在するオブジェクトを検知し,広範囲なトレーニングや入力マスクを使わずに正確な操作を可能にする。
論文 参考訳(メタデータ) (2025-01-23T19:26:14Z) - ControlFace: Harnessing Facial Parametric Control for Face Rigging [31.765503860508378]
フレキシブルで高忠実な制御を可能にする3DMMレンダリングに条件付けされた新しい顔リグ手法であるControlFaceを導入する。
ひとつはFaceNetと呼ばれ、アイデンティティと詳細をキャプチャし、もうひとつは生成に焦点を当てています。
顔ビデオデータセットをトレーニングすることで、FaceNetのリッチな表現を完全に活用し、コントロールの順守を確保します。
論文 参考訳(メタデータ) (2024-12-02T06:00:27Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions [59.53867290769282]
テキストプロンプトに適応するための粗い視覚条件を修正するために,SmartControlと呼ばれる新しいT2I生成手法を提案する。
SmartControlのキーとなる考え方は、テキストプロンプトと矛盾する領域の視覚状態を緩和することです。
4つの典型的な視覚条件に対する実験は、我々のSmartControlが最先端技術に対して有効であることを明確に示している。
論文 参考訳(メタデータ) (2024-04-09T16:53:43Z) - When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on its Contour-following Ability [93.15085958220024]
ControlNetは、ユーザーが提供するマスクの正確な輪郭と密に一致したコンテンツを作成するのに長けている。
これらのマスクがノイズを含む場合、非専門家で頻繁に発生するため、出力には不要なアーティファクトが含まれる。
筆者らはまず, 深部分析により, 種々の劣化レベルを有する非説明マスクの影響を抑える上で重要な役割について述べる。
劣化推定器と形状優先変調ブロックからなる高度な形状認識制御ネットを考案した。
論文 参考訳(メタデータ) (2024-03-01T11:45:29Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - FineControlNet: Fine-level Text Control for Image Generation with
Spatially Aligned Text Control Injection [28.65209293141492]
FineControlNetは、正確なポーズ制御能力を維持しながら、各インスタンスの外観を細かく制御する。
FineControlNetは、ユーザが提供したインスタンス固有のテキストプロンプトとポーズに従うイメージを生成する上で、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。