論文の概要: Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion
- arxiv url: http://arxiv.org/abs/2404.14768v1
- Date: Tue, 23 Apr 2024 06:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:10:30.526232
- Title: Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion
- Title(参考訳): 学習用マスク誘導拡散による視覚制御によるプロンプト追従の促進
- Authors: Hongyu Chen, Yiqi Gao, Min Zhou, Peng Wang, Xubin Li, Tiezheng Ge, Bo Zheng,
- Abstract要約: 視覚制御によるプロンプト追従を強化するために,Mask-guided Prompt following (MGPF) というトレーニングフリーアプローチを提案する。
MGPFの有効性と優位性は、総合的な定量的および定性的実験によって検証される。
- 参考スコア(独自算出の注目度): 27.61734719689046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, integrating visual controls into text-to-image~(T2I) models, such as ControlNet method, has received significant attention for finer control capabilities. While various training-free methods make efforts to enhance prompt following in T2I models, the issue with visual control is still rarely studied, especially in the scenario that visual controls are misaligned with text prompts. In this paper, we address the challenge of ``Prompt Following With Visual Control" and propose a training-free approach named Mask-guided Prompt Following (MGPF). Object masks are introduced to distinct aligned and misaligned parts of visual controls and prompts. Meanwhile, a network, dubbed as Masked ControlNet, is designed to utilize these object masks for object generation in the misaligned visual control region. Further, to improve attribute matching, a simple yet efficient loss is designed to align the attention maps of attributes with object regions constrained by ControlNet and object masks. The efficacy and superiority of MGPF are validated through comprehensive quantitative and qualitative experiments.
- Abstract(参考訳): 近年、制御ネット法のようなテキスト・トゥ・イメージ・〜(T2I)モデルへの視覚的制御の統合は、より細かい制御機能に対して大きな注目を集めている。
T2Iモデルにおけるプロンプトの強化には様々なトレーニング不要な方法があるが、特にテキストプロンプトと正しく一致しない場合、視覚制御の問題はまだ研究されていない。
本稿では,「Prompt Following With Visual Control」の課題に対処し,Mask-guided Prompt Following (MGPF) というトレーニング不要のアプローチを提案する。
オブジェクトマスクは、視覚制御とプロンプトの異なる整列と不整合の部分に導入される。
一方、Masked ControlNetと呼ばれるネットワークは、これらのオブジェクトマスクを、不整合視覚制御領域におけるオブジェクト生成に利用するように設計されている。
さらに、属性マッチングを改善するために、属性のアテンションマップと、ControlNetやオブジェクトマスクによって制約されたオブジェクト領域を整列するように、シンプルで効率的なロスを設計する。
MGPFの有効性と優位性は、総合的な定量的および定性的実験によって検証される。
関連論文リスト
- When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on
its Contour-following Ability [97.82197656469972]
ControlNetは、ユーザーが提供するマスクの正確な輪郭と密に一致したコンテンツを作成するのに長けている。
これらのマスクがノイズを含む場合、非専門家で頻繁に発生するため、出力には不要なアーティファクトが含まれる。
筆者らはまず, 深部分析により, 種々の劣化レベルを有する非説明マスクの影響を抑える上で重要な役割について述べる。
不特定マスクによる制御性を高めるため、劣化推定器と形状優先変調ブロックからなる高度な形状認識制御ネットを考案した。
論文 参考訳(メタデータ) (2024-03-01T11:45:29Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - FineControlNet: Fine-level Text Control for Image Generation with
Spatially Aligned Text Control Injection [28.65209293141492]
FineControlNetは、正確なポーズ制御能力を維持しながら、各インスタンスの外観を細かく制御する。
FineControlNetは、ユーザが提供したインスタンス固有のテキストプロンプトとポーズに従うイメージを生成する上で、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Meta ControlNet: Enhancing Task Adaptation via Meta Learning [111.16980465577682]
近年,拡散に基づく画像合成が注目されている。
画像ベースのプロンプトを使用するControlNetは、キャニーエッジ検出などのイメージタスクに強力な能力を示し、これらのプロンプトによく適合した画像を生成する。
最近の文脈学習アプローチは適応性を改善しているが、主にエッジベースのタスクに向いており、ペア化された例に依存している。
本稿では,タスクに依存しないメタ学習技術を採用し,新しい層凍結設計を特徴とするMeta ControlNet法を提案する。
論文 参考訳(メタデータ) (2023-12-03T01:36:45Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - MixMask: Revisiting Masking Strategy for Siamese ConvNets [24.20212182301359]
画像中のランダムに消去された領域によって引き起こされる情報の不完全性を防止するために,MixMaskと呼ばれる補充型マスキング手法を提案する。
提案手法は, 線形探索, 半教師付き, 教師付き微調整において, 精度が向上し, 最先端のMSCNよりも有意な差が認められた。
論文 参考訳(メタデータ) (2022-10-20T17:54:03Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。