論文の概要: DepGAN: Leveraging Depth Maps for Handling Occlusions and Transparency in Image Composition
- arxiv url: http://arxiv.org/abs/2407.11890v1
- Date: Tue, 16 Jul 2024 16:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:53:50.929710
- Title: DepGAN: Leveraging Depth Maps for Handling Occlusions and Transparency in Image Composition
- Title(参考訳): DepGAN:画像合成におけるオクルージョンと透明性処理のための深度マップの活用
- Authors: Amr Ghoneim, Jiju Poovvancheri, Yasushi Akiyama, Dong Chen,
- Abstract要約: DepGANは、デプスマップとアルファチャンネルを利用して、不正確なオクルージョンを正すジェネレーティブ・アドバイサル・ネットワークである。
我々のネットワークの中心にはDepth Aware Lossと呼ばれる新しいロス関数があり、ピクセルのワイド深さ差を定量化している。
我々は不透明データを利用してネットワークの学習プロセスを強化し、透明で半透明なオブジェクトを含む構成を効果的に管理する。
- 参考スコア(独自算出の注目度): 7.693732944239458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image composition is a complex task which requires a lot of information about the scene for an accurate and realistic composition, such as perspective, lighting, shadows, occlusions, and object interactions. Previous methods have predominantly used 2D information for image composition, neglecting the potentials of 3D spatial information. In this work, we propose DepGAN, a Generative Adversarial Network that utilizes depth maps and alpha channels to rectify inaccurate occlusions and enhance transparency effects in image composition. Central to our network is a novel loss function called Depth Aware Loss which quantifies the pixel wise depth difference to accurately delineate occlusion boundaries while compositing objects at different depth levels. Furthermore, we enhance our network's learning process by utilizing opacity data, enabling it to effectively manage compositions involving transparent and semi-transparent objects. We tested our model against state-of-the-art image composition GANs on benchmark (both real and synthetic) datasets. The results reveal that DepGAN significantly outperforms existing methods in terms of accuracy of object placement semantics, transparency and occlusion handling, both visually and quantitatively. Our code is available at https://amrtsg.github.io/DepGAN/.
- Abstract(参考訳): 画像合成は、視点、照明、影、隠蔽、物体の相互作用など、正確で現実的な構成のためにシーンに関する多くの情報を必要とする複雑なタスクである。
従来は3次元空間情報の可能性を無視した2次元情報を画像合成に主に用いていた。
本研究では,深度マップとアルファチャネルを利用して,不正確なオクルージョンを補正し,画像合成における透明性効果を高めるジェネレーティブ・アドバイサル・ネットワークであるDepGANを提案する。
ネットワークの中心にはDepth Aware Lossと呼ばれる新しい損失関数があり、これは画素のワイド深さ差を定量化し、異なる深さのオブジェクトを合成しながら、閉塞境界を正確に記述する。
さらに、不透明データを利用してネットワークの学習プロセスを強化し、透明で半透明なオブジェクトを含む構成を効果的に管理できるようにする。
我々は、ベンチマーク(実画像と合成画像の両方)データセット上で、最先端の画像合成GANに対して、我々のモデルを検証した。
その結果,DepGANはオブジェクト配置意味論,透過性,閉塞処理の精度において,視覚的にも定量的にも,既存の手法よりも優れていたことが明らかとなった。
私たちのコードはhttps://amrtsg.github.io/DepGAN/で利用可能です。
関連論文リスト
- Depth-aware Volume Attention for Texture-less Stereo Matching [67.46404479356896]
実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量なボリューム改善手法を提案する。
画像テクスチャの相対的階層を抽出し,地中深度マップによって教師される深度体積を導入する。
局所的な微細構造と文脈は、体積凝集時のあいまいさと冗長性を緩和するために強調される。
論文 参考訳(メタデータ) (2024-02-14T04:07:44Z) - Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - Intrinsic Image Decomposition Using Point Cloud Representation [13.771632868567277]
本稿では3次元クラウドデータを利用してアルベドとシェーディングマップを同時に推定するPoint Intrinsic Net(PoInt-Net)を紹介する。
PoInt-Netは効率的で、任意のサイズのポイントクラウドで一貫したパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-20T14:51:28Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - Background Prompting for Improved Object Depth [70.25467510077706]
単一の画像からオブジェクトの深さを推定することは、多くのビジョン、ロボティクス、グラフィックアプリケーションにとって貴重なタスクである。
本稿では,入力対象画像を学習背景に適応させる,シンプルで効果的なバックグラウンドプロンプティング手法を提案する。
複数の合成および実データセットの結果は、既存の様々な深度ネットワークに対して、実際の物体深度を一貫した改善を示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Source-free Depth for Object Pop-out [113.24407776545652]
現代の学習に基づく手法は、野生での推論による有望な深度マップを提供する。
本研究では,オブジェクトの3次元前の「ポップアウト」を用いて,オブジェクトセグメンテーションの深度推定モデルを適用する。
8つのデータセットに対する我々の実験は、性能と一般化性の両方の観点から、我々の方法の利点を一貫して示している。
論文 参考訳(メタデータ) (2022-12-10T21:57:11Z) - Unsupervised Learning of Depth and Depth-of-Field Effect from Natural
Images with Aperture Rendering Generative Adversarial Networks [15.546533383799309]
本稿では,GAN上にアパーチャレンダリングを実装したAR-GAN(Aperture rendering Generative Adversarial Network)を提案する。
実験では,花,鳥,顔画像などの各種データセットにおけるAR-GANの有効性を実証し,これらを他の3次元表現学習GANに組み込むことで可搬性を示し,浅部DoFレンダリングにおけるそれらの適用性を検証する。
論文 参考訳(メタデータ) (2021-06-24T14:15:50Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Depth Edge Guided CNNs for Sparse Depth Upsampling [18.659087667114274]
ガイドされたスパース深度アップサンプリングは、アライメントされた高解像度カラー画像がガイダンスとして与えられるとき、不規則にサンプリングされたスパース深度マップをアップサンプリングすることを目的としている。
奥行き画像を用いたスパース・不規則深度画像から深度を復元するためのガイド付き畳み込み層を提案する。
実世界の屋内および合成屋外データセット上で,本手法を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2020-03-23T08:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。