論文の概要: When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on its Contour-following Ability
- arxiv url: http://arxiv.org/abs/2403.00467v3
- Date: Tue, 15 Oct 2024 01:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:13.011370
- Title: When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on its Contour-following Ability
- Title(参考訳): ControlNetが不明瞭なマスクと出会う:ControlNetの輪郭追従能力に関する事例研究
- Authors: Wenjie Xuan, Yufei Xu, Shanshan Zhao, Chaoyue Wang, Juhua Liu, Bo Du, Dacheng Tao,
- Abstract要約: ControlNetは、ユーザーが提供するマスクの正確な輪郭と密に一致したコンテンツを作成するのに長けている。
これらのマスクがノイズを含む場合、非専門家で頻繁に発生するため、出力には不要なアーティファクトが含まれる。
筆者らはまず, 深部分析により, 種々の劣化レベルを有する非説明マスクの影響を抑える上で重要な役割について述べる。
劣化推定器と形状優先変調ブロックからなる高度な形状認識制御ネットを考案した。
- 参考スコア(独自算出の注目度): 93.15085958220024
- License:
- Abstract: ControlNet excels at creating content that closely matches precise contours in user-provided masks. However, when these masks contain noise, as a frequent occurrence with non-expert users, the output would include unwanted artifacts. This paper first highlights the crucial role of controlling the impact of these inexplicit masks with diverse deterioration levels through in-depth analysis. Subsequently, to enhance controllability with inexplicit masks, an advanced Shape-aware ControlNet consisting of a deterioration estimator and a shape-prior modulation block is devised. The deterioration estimator assesses the deterioration factor of the provided masks. Then this factor is utilized in the modulation block to adaptively modulate the model's contour-following ability, which helps it dismiss the noise part in the inexplicit masks. Extensive experiments prove its effectiveness in encouraging ControlNet to interpret inaccurate spatial conditions robustly rather than blindly following the given contours, suitable for diverse kinds of conditions. We showcase application scenarios like modifying shape priors and composable shape-controllable generation. Codes are available at github.
- Abstract(参考訳): ControlNetは、ユーザーが提供するマスクの正確な輪郭と密に一致したコンテンツを作成するのに長けている。
しかし、これらのマスクがノイズを含む場合、非専門家で頻繁に発生するため、出力には不要なアーティファクトが含まれる。
筆者らはまず, 深部分析により, 種々の劣化レベルを有する非説明マスクの影響を抑える上で重要な役割について述べる。
その後、不特定マスクによる制御性を高めるため、劣化推定器と形状優先変調ブロックからなる高度な形状認識制御ネットを考案した。
劣化推定器は、供給されたマスクの劣化係数を評価する。
そして、この因子を変調ブロックに利用して、モデルの輪郭追従能力を適応的に変調し、不特定マスクのノイズ部分を除去する。
広範囲な実験により、制御ネットは与えられた輪郭に盲目的に従わず、不正確な空間条件を頑健に解釈するよう促す効果が証明された。
形状の事前変更や構成可能な形状制御可能な生成といったアプリケーションシナリオを紹介します。
コードはgithubで入手できる。
関連論文リスト
- Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion [27.61734719689046]
視覚制御によるプロンプト追従を強化するために,Mask-guided Prompt following (MGPF) というトレーニングフリーアプローチを提案する。
MGPFの有効性と優位性は、総合的な定量的および定性的実験によって検証される。
論文 参考訳(メタデータ) (2024-04-23T06:10:43Z) - ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback [20.910939141948123]
ControlNet++は、生成した画像と条件付き制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである。
ControlNetの11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。
論文 参考訳(メタデータ) (2024-04-11T17:59:09Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Towards Improved Input Masking for Convolutional Neural Networks [66.99060157800403]
層マスキングと呼ぶCNNのための新しいマスキング手法を提案する。
本手法は,マスク形状や色がモデル出力に与える影響を排除あるいは最小化することができることを示す。
また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,クラス関連特徴に対するモデル依存度の推定に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2022-11-26T19:31:49Z) - Calibrated Hyperspectral Image Reconstruction via Graph-based
Self-Tuning Network [40.71031760929464]
ハイパースペクトルイメージング(HSI)は、特に符号化スナップショット分光イメージング(CASSI)システムに基づく画像に対して、研究の注目を集めている。
既存の深いHSI再構成モデルは、CASSIの特定の光学ハードウェアマスクが与える2次元圧縮計測に基づいて元の信号を取得するために、ペアデータで訓練される。
このマスク固有のトレーニングスタイルは、ハードウェアの誤校正問題を引き起こし、異なるハードウェアとノイズの多い環境間で深いHSIモデルをデプロイする障壁を設定できる。
マスクの空間構造の変化に適応する不確実性を推論するグラフベース自己調整(GST)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-31T09:39:13Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z) - MagGAN: High-Resolution Face Attribute Editing with Mask-Guided
Generative Adversarial Network [145.4591079418917]
MagGANは、望ましい属性変更に関連する顔の部分のみを編集することを学ぶ。
各属性変更の影響領域をジェネレータに組み込むために、新しいマスク誘導条件付け戦略を導入する。
高解像度(1024×1024$)の顔編集のために,マルチレベルパッチワイド識別器構造を提案する。
論文 参考訳(メタデータ) (2020-10-03T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。