論文の概要: DiffuMatting: Synthesizing Arbitrary Objects with Matting-level Annotation
- arxiv url: http://arxiv.org/abs/2403.06168v2
- Date: Wed, 21 Aug 2024 11:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 22:44:58.258650
- Title: DiffuMatting: Synthesizing Arbitrary Objects with Matting-level Annotation
- Title(参考訳): DiffuMatting: 任意のオブジェクトをマットレベルアノテーションで合成する
- Authors: Xiaobin Hu, Xu Peng, Donghao Luo, Xiaozhong Ji, Jinlong Peng, Zhengkai Jiang, Jiangning Zhang, Taisong Jin, Chengjie Wang, Rongrong Ji,
- Abstract要約: 拡散の強大な全ての生成能力を継承し,「何でも達成する」力を与えるDiffuMattingを提案する。
当社のDiffuMatting can 1)は,コミュニティに優しいアートデザインとコントロール可能な世代を実現するために,コミュニティのLoRAやさまざまな条件制御アプローチと整合性のある,高精度なアノテーションを備えたテンプレートファクトリとして機能する。
マットデータ生成器として、DiffuMattingは汎用オブジェクトとポートレート・マッティングセットを合成し、一般オブジェクト・マッティングでは15.4%、ポートレート・マッティングでは11.4%の誤差を効果的に削減した。
- 参考スコア(独自算出の注目度): 74.22182598142412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the difficulty and labor-consuming nature of getting highly accurate or matting annotations, there only exists a limited amount of highly accurate labels available to the public. To tackle this challenge, we propose a DiffuMatting which inherits the strong Everything generation ability of diffusion and endows the power of "matting anything". Our DiffuMatting can 1). act as an anything matting factory with high accurate annotations 2). be well-compatible with community LoRAs or various conditional control approaches to achieve the community-friendly art design and controllable generation. Specifically, inspired by green-screen-matting, we aim to teach the diffusion model to paint on a fixed green screen canvas. To this end, a large-scale greenscreen dataset (Green100K) is collected as a training dataset for DiffuMatting. Secondly, a green background control loss is proposed to keep the drawing board as a pure green color to distinguish the foreground and background. To ensure the synthesized object has more edge details, a detailed-enhancement of transition boundary loss is proposed as a guideline to generate objects with more complicated edge structures. Aiming to simultaneously generate the object and its matting annotation, we build a matting head to make a green color removal in the latent space of the VAE decoder. Our DiffuMatting shows several potential applications (e.g., matting-data generator, community-friendly art design and controllable generation). As a matting-data generator, DiffuMatting synthesizes general object and portrait matting sets, effectively reducing the relative MSE error by 15.4% in General Object Matting and 11.4% in Portrait Matting tasks. The dataset is released in our project page at \url{https://diffumatting.github.io}.
- Abstract(参考訳): 高度に正確なアノテーションを入手することの困難さと労力のかかる性質のため、一般に利用可能な高度に正確なラベルは限られている。
この課題に対処するため,拡散の強大な生成能力を継承し,「何でもできる」パワーを付与するDiffuMattingを提案する。
DiffuMatting can 1)。
高精度なアノテーションで適合する工場として振る舞う(2)
コミュニティフレンドリーなアートデザインとコントロール可能なジェネレーションを達成するために、コミュニティのLoRAやさまざまな条件制御アプローチとよく互換性があります。
具体的には、グリーンスクリーンマッティングにインスパイアされ、固定されたグリーンスクリーンキャンバスに絵を描く拡散モデルを教えることを目的としている。
この目的のために、大規模なグリーンスクリーンデータセット(Green100K)がDiffuMattingのトレーニングデータセットとして収集される。
第二に、背景と背景を区別するために、絵板を純粋な緑色に保つために、背景制御損失が提案されている。
合成対象がよりエッジの詳細を持つようにするために、より複雑なエッジ構造を持つオブジェクトを生成するためのガイドラインとして、遷移境界損失の詳細な拡張が提案されている。
オブジェクトとマットアノテーションを同時に生成することを目的として,VAEデコーダの潜時空間で緑色の色を除去するマッティングヘッドを構築した。
我々のDiffuMattingは、いくつかの潜在的なアプリケーション(例えば、マットデータジェネレータ、コミュニティフレンドリーなアートデザイン、コントロール可能なジェネレータ)を示しています。
マットデータ生成器として、DiffuMattingは汎用オブジェクトとポートレート・マッティングセットを合成し、一般オブジェクト・マッティングでは15.4%、ポートレート・マッティングでは11.4%の誤差を効果的に削減した。
データセットはプロジェクトページの \url{https://diffumatting.github.io} で公開されています。
関連論文リスト
- MagicEraser: Erasing Any Objects via Semantics-Aware Control [40.683569840182926]
オブジェクト消去タスクに適した拡散モデルに基づくフレームワークであるMagicEraserを紹介する。
MagicEraserは、望ましくないアーティファクトを緩和しながら、コンテンツ生成の微細かつ効果的な制御を実現する。
論文 参考訳(メタデータ) (2024-10-14T07:03:14Z) - Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models [25.903156244291168]
トーンシェーディング(Toon Shading)は、アニメーションの非フォトリアリスティックレンダリングタスクの一種である。
Diffutoonは、鮮明で高解像度で拡張された動画をアニメ形式でレンダリングすることができる。
論文 参考訳(メタデータ) (2024-01-29T15:21:37Z) - GiGaMAE: Generalizable Graph Masked Autoencoder via Collaborative Latent
Space Reconstruction [76.35904458027694]
マスク付きオートエンコーダモデルは、グラフデータに対する優れた一般化能力に欠ける。
本稿では,GiGaMAEと呼ばれる新しいグラフマスマスキングオートエンコーダフレームワークを提案する。
私たちの結果は、グラフ構造化データに基づく基礎モデルの設計に光を当てます。
論文 参考訳(メタデータ) (2023-08-18T16:30:51Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Self-supervised Matting-specific Portrait Enhancement and Generation [40.444011984347505]
我々はStyleGANを使ってGANモデルの潜伏空間を探索する。
我々は、4つの調整された損失の下で、潜伏空間における多スケール潜伏ベクトルを最適化する。
提案手法は,任意のマッチングモデルに対して,実際のポートレート画像を洗練することができることを示す。
論文 参考訳(メタデータ) (2022-08-13T09:00:02Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Deep Automatic Natural Image Matting [82.56853587380168]
自動画像マッチング(AIM)とは、任意の自然画像からソフトフォアグラウンドをトリマップのような補助的な入力なしで推定することである。
本稿では,これらの画像の一般化されたトリマップを統一的な意味表現として予測できる,新しいエンドツーエンドマッチングネットワークを提案する。
我々のネットワークは、利用可能な合成マッチングデータセットをトレーニングし、既存の手法を客観的にも主観的にも優れています。
論文 参考訳(メタデータ) (2021-07-15T10:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。