論文の概要: MP-Mat: A 3D-and-Instance-Aware Human Matting and Editing Framework with Multiplane Representation
- arxiv url: http://arxiv.org/abs/2504.14606v1
- Date: Sun, 20 Apr 2025 13:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:29:15.603833
- Title: MP-Mat: A 3D-and-Instance-Aware Human Matting and Editing Framework with Multiplane Representation
- Title(参考訳): MP-Mat: マルチプレーン表現による3次元・インスタンス対応ヒューマンマッチングと編集フレームワーク
- Authors: Siyi Jiao, Wenzheng Zeng, Yerong Li, Huayu Zhang, Changxin Gao, Nong Sang, Mike Zheng Shou,
- Abstract要約: MP-Matは、多面体表現を備えた新しい3D・インスタント・アウェア・マッティングフレームワークである。
既存のマット方式で探索された領域である画像編集作業において,その優位性を示す。
- 参考スコア(独自算出の注目度): 38.72729139912206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human instance matting aims to estimate an alpha matte for each human instance in an image, which is challenging as it easily fails in complex cases requiring disentangling mingled pixels belonging to multiple instances along hairy and thin boundary structures. In this work, we address this by introducing MP-Mat, a novel 3D-and-instance-aware matting framework with multiplane representation, where the multiplane concept is designed from two different perspectives: scene geometry level and instance level. Specifically, we first build feature-level multiplane representations to split the scene into multiple planes based on depth differences. This approach makes the scene representation 3D-aware, and can serve as an effective clue for splitting instances in different 3D positions, thereby improving interpretability and boundary handling ability especially in occlusion areas. Then, we introduce another multiplane representation that splits the scene in an instance-level perspective, and represents each instance with both matte and color. We also treat background as a special instance, which is often overlooked by existing methods. Such an instance-level representation facilitates both foreground and background content awareness, and is useful for other down-stream tasks like image editing. Once built, the representation can be reused to realize controllable instance-level image editing with high efficiency. Extensive experiments validate the clear advantage of MP-Mat in matting task. We also demonstrate its superiority in image editing tasks, an area under-explored by existing matting-focused methods, where our approach under zero-shot inference even outperforms trained specialized image editing techniques by large margins. Code is open-sourced at https://github.com/JiaoSiyi/MPMat.git}.
- Abstract(参考訳): ヒトのインスタンス・マッティングは、画像中の各人間のインスタンスのアルファマットを推定することを目的としており、毛むくじゃらと細い境界構造に沿って複数のインスタンスに属する混在ピクセルを混在させる複雑なケースでは容易に失敗する。
本稿では,MP-Matという,多面体表現を用いた新しい3次元・インスタント・アウェア・マッティング・フレームワークを導入し,多面体の概念をシーン幾何学レベルとインスタンスレベルという2つの異なる視点から設計する。
具体的には,シーンを複数の平面に分割する特徴レベル多面体表現を,深さ差に基づいて構築する。
このアプローチはシーン表現を3D認識し、異なる3D位置のインスタンスを分割する効果的な手がかりとなり、特に閉塞領域における解釈可能性や境界処理能力を向上させる。
次に、インスタンスレベルの視点でシーンを分割する別のマルチプレーン表現を導入し、各インスタンスをマットとカラーの両方で表現する。
また、バックグラウンドを特別な例として扱うが、これは既存のメソッドによって見落とされがちである。
このようなインスタンスレベルの表現は、フォアグラウンドとバックグラウンドの両方のコンテンツ認識を促進し、画像編集のような他のダウンストリームタスクに役立ちます。
一度構築すれば、この表現を再利用して、高効率で制御可能なインスタンスレベルの画像編集を実現することができる。
大規模実験により,MP-Matの整合作業における利点が明らかとなった。
また,既存のマッティング方式で探索された領域である画像編集作業において,ゼロショット推論によるアプローチは,訓練された画像編集技術よりも大きなマージンで優れることを示した。
コードはhttps://github.com/JiaoSiyi/MPMat.git}で公開されている。
関連論文リスト
- Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion [29.770096013143117]
我々は、人中心画像合成タスクから、より一般的なオブジェクトシーン合成フレームワークまで、Affordanceの概念を拡張した。
マルチストリームアーキテクチャを用いてRGB画像と挿入マスクを同時に識別するMask-Aware Dual Diffusion (MADD)モデルを提案する。
提案手法は最先端の手法より優れており,画像に強い一般化性能を示す。
論文 参考訳(メタデータ) (2024-12-19T02:23:13Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Efficient 3D Instance Mapping and Localization with Neural Fields [39.73128916618561]
本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。
本稿では,新しい視点から3Dインスタンスセグメンテーションマスクを描画するニューラルラベルフィールドを効率的に学習する新しいフレームワークである3DIMLを紹介する。
論文 参考訳(メタデータ) (2024-03-28T19:25:25Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - Tiled Multiplane Images for Practical 3D Photography [9.309697339467148]
マルチプレーン画像(MPI)は、シーンをRGBA層のスタックとして推定する。
神経放射場とは異なり、MPIはグラフィックハードウェア上で効率よくレンダリングできる。
本研究では,野生の単視点3D写真に適応的な深度平面を持つTMPIを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T16:56:40Z) - 3D Instance Segmentation of MVS Buildings [5.2517244720510305]
本稿では,多視点ステレオ(MVS)都市シーンから3次元建物をセグメント化するための新しい枠組みを提案する。
この研究の重点は、大型で不正確な3D表面モデルに取り付けられたとしても、3Dビルディングインスタンスを検出し、セグメンテーションすることにある。
論文 参考訳(メタデータ) (2021-12-18T11:12:38Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。