論文の概要: Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation
- arxiv url: http://arxiv.org/abs/2503.11633v1
- Date: Fri, 14 Mar 2025 17:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:57.533165
- Title: Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation
- Title(参考訳): ガラスを通して見たり見たりする:多層深度推定のための実データと合成データ
- Authors: Hongyu Wen, Yiming Zuo, Venkat Subramanian, Patrick Chen, Jia Deng,
- Abstract要約: LayeredDepthは、実世界のベンチマークと合成データジェネレータを含む、多層深度アノテーションを備えた最初のデータセットである。
我々のベンチマークは、様々なシーンから1,500枚の画像で構成され、その上で最先端の深度推定手法を評価することで、透明な物体に苦しむことを明らかにした。
この合成データセットのみをトレーニングしたベースラインモデルは、優れたクロスドメイン多層深さ推定を生成する。
- 参考スコア(独自算出の注目度): 18.8622645280467
- License:
- Abstract: Transparent objects are common in daily life, and understanding their multi-layer depth information -- perceiving both the transparent surface and the objects behind it -- is crucial for real-world applications that interact with transparent materials. In this paper, we introduce LayeredDepth, the first dataset with multi-layer depth annotations, including a real-world benchmark and a synthetic data generator, to support the task of multi-layer depth estimation. Our real-world benchmark consists of 1,500 images from diverse scenes, and evaluating state-of-the-art depth estimation methods on it reveals that they struggle with transparent objects. The synthetic data generator is fully procedural and capable of providing training data for this task with an unlimited variety of objects and scene compositions. Using this generator, we create a synthetic dataset with 15,300 images. Baseline models training solely on this synthetic dataset produce good cross-domain multi-layer depth estimation. Fine-tuning state-of-the-art single-layer depth models on it substantially improves their performance on transparent objects, with quadruplet accuracy on our benchmark increased from 55.14% to 75.20%. All images and validation annotations are available under CC0 at https://layereddepth.cs.princeton.edu.
- Abstract(参考訳): 透明な物体は日常生活で一般的であり、透明な表面と裏の物体の両方を知覚する多層深度情報を理解することは、透明な物質と相互作用する現実世界のアプリケーションにとって不可欠である。
本稿では,実世界のベンチマークと合成データ生成装置を含む,多層深度アノテーションを用いた最初のデータセットであるLayeredDepthを紹介し,多層深度推定の課題を支援する。
我々の実世界のベンチマークは、様々なシーンから1,500枚の画像で構成されており、その上で最先端の深度推定手法を評価することで、透明な物体に苦しむことが明らかになっている。
合成データ生成装置は、完全に手続き的であり、このタスクのためのトレーニングデータに、無制限のさまざまなオブジェクトやシーン構成を提供することができる。
このジェネレータを用いて、15,300の画像からなる合成データセットを作成する。
この合成データセットのみをトレーニングしたベースラインモデルは、優れたクロスドメイン多層深さ推定を生成する。
微細調整された単一層深度モデルでは, 透明物体の性能が著しく向上し, ベンチマークの四重極精度は55.14%から75.20%に向上した。
すべてのイメージと検証アノテーションは CC0 at https://layereddepth.cs.princeton.edu で公開されている。
関連論文リスト
- Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion [9.391182087420926]
本稿では,透明物体のセグメンテーションと深さ推定の両面において,初めて優れたモノクラーフレームワークを提案する。
具体的には,タスク間のマルチスケール情報を効果的に統合する,新しい意味的および幾何学的融合モジュールを考案する。
2つの挑戦的な合成および実世界のデータセットの実験により、我々のモデルは最先端のモノクル、ステレオ、マルチビューメソッドを大きなマージンで超越していることが示された。
論文 参考訳(メタデータ) (2025-02-20T14:57:01Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene
Scale and Realism Tradeoffs for ObjectGoal Navigation [70.82403156865057]
本研究では,合成3次元シーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。
我々の実験によると、我々の小規模データセットで訓練されたエージェントは、はるかに大きなデータセットで訓練されたエージェントと一致するか、より優れています。
論文 参考訳(メタデータ) (2023-06-20T05:07:23Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - TransCG: A Large-Scale Real-World Dataset for Transparent Object Depth
Completion and Grasping [46.6058840385155]
我々は、透明な物体深度を補完する大規模な実世界のデータセットをコントリビュートする。
データセットには、130の異なるシーンから57,715枚のRGB-D画像が含まれている。
本稿では,RGB画像と不正確な深度マップを入力とし,精細化された深度マップを出力するエンド・ツー・エンドの深度補完ネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-17T06:50:20Z) - Seeing Glass: Joint Point Cloud and Depth Completion for Transparent
Objects [16.714074893209713]
TranspareNetはジョイントポイントクラウドとディープコンプリートコンプリート方式である。
透明な物体の深さを、散らかって複雑な場面で埋めることができます。
TranspareNetは、既存の最先端のディープコンプリートメソッドを複数のデータセットで上回っている。
論文 参考訳(メタデータ) (2021-09-30T21:09:09Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Learning from THEODORE: A Synthetic Omnidirectional Top-View Indoor
Dataset for Deep Transfer Learning [4.297070083645049]
TheODOREは,14種類の高解像度魚眼画像10万点を含む,新しい大規模屋内データセットである。
リビングルーム、異なる人間キャラクター、インテリアテクスチャの3D仮想環境を作成します。
我々のデータセットは、オブジェクト検出のための微調整CNNに適していることを示す。
論文 参考訳(メタデータ) (2020-11-11T11:46:33Z) - EDEN: Multimodal Synthetic Dataset of Enclosed GarDEN Scenes [21.695100437184507]
このデータセットには、100以上の園芸モデルから取得した300万以上の画像が含まれている。
各画像には、セマンティックセグメンテーション、深さ、表面正規化、固有色、光学フローなど、様々な低レベル/高レベルの視覚変調が注釈付けされている。
コンピュータビジョンにおける2つの重要な課題である, セマンティックセグメンテーションと単眼深度予測の最先端手法に関する実験結果から, 未構造化自然シーンのデータセットに対する事前学習深度ネットワークの効果が示唆された。
論文 参考訳(メタデータ) (2020-11-09T12:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。