論文の概要: Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical
Flow with Monocular Depth Completion Prior
- arxiv url: http://arxiv.org/abs/2310.09956v1
- Date: Sun, 15 Oct 2023 21:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:07:00.618339
- Title: Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical
Flow with Monocular Depth Completion Prior
- Title(参考訳): 単眼深度を先行した過分極誘導光流によるテーブルトップ透明シーン再構成
- Authors: Xiaotong Chen, Zheming Zhou, Zhuo Deng, Omid Ghasemalizadeh, Min Sun,
Cheng-Hao Kuo, Arnie Sen
- Abstract要約: モバイルプラットフォームに適した透明なオブジェクトを再構築するための2段階パイプラインを導入する。
EOF(Epipolar-Guided Optical Flow)は、一貫した3次元再構成に先立って複数の単一視野形状を融合する。
パイプラインは, 3次元再構成品質において, ベースライン法を著しく上回っている。
- 参考スコア(独自算出の注目度): 14.049778178534588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing transparent objects using affordable RGB-D cameras is a
persistent challenge in robotic perception due to inconsistent appearances
across views in the RGB domain and inaccurate depth readings in each
single-view. We introduce a two-stage pipeline for reconstructing transparent
objects tailored for mobile platforms. In the first stage, off-the-shelf
monocular object segmentation and depth completion networks are leveraged to
predict the depth of transparent objects, furnishing single-view shape prior.
Subsequently, we propose Epipolar-guided Optical Flow (EOF) to fuse several
single-view shape priors from the first stage to a cross-view consistent 3D
reconstruction given camera poses estimated from opaque part of the scene. Our
key innovation lies in EOF which employs boundary-sensitive sampling and
epipolar-line constraints into optical flow to accurately establish 2D
correspondences across multiple views on transparent objects. Quantitative
evaluations demonstrate that our pipeline significantly outperforms baseline
methods in 3D reconstruction quality, paving the way for more adept robotic
perception and interaction with transparent objects.
- Abstract(参考訳): 安価なRGB-Dカメラを用いて透明なオブジェクトを再構成することは、RGBドメインのビュー間の不整合な出現と、各単一ビューにおける不正確な深度読み取りによるロボット知覚における永続的な課題である。
モバイルプラットフォームに適した透明なオブジェクトを再構築するための2段階パイプラインを導入する。
第1段階では、既製の単分子物体のセグメント化と深度補完網を利用して透明物体の深さを予測する。
その後、シーンの不透明な部分から推定されるカメラのポーズを、一段目から一貫した3D再構成に融合させるエピポーラ誘導光流(EOF)を提案する。
私たちの重要な革新は、境界感応性サンプリングとエピポーラ線制約を光学流に応用し、透明物体の複数のビューにまたがる2D対応を正確に確立するEOFです。
定量的評価により,我々のパイプラインは3次元再構成の精度でベースライン法を著しく上回り,ロボットの知覚と透明物体との相互作用が促進された。
関連論文リスト
- Diffusion-Based Depth Inpainting for Transparent and Reflective Objects [6.571006663689738]
本稿では,透過的および反射的オブジェクトに特化して設計された拡散型深度塗布フレームワークを提案する。
DITRは、堅牢な適応性を持つ透明で反射性のある物体の奥行き塗装に非常に効果的である。
論文 参考訳(メタデータ) (2024-10-11T06:45:15Z) - ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation [18.140839442955485]
我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。
提案手法は,効率的なデータ生成のためのパラメータ整合,ドメイン適応,物理的に現実的なSim2Realシミュレーションを含む。
実世界のシナリオにおけるSim2Realの例外的な一般化性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-13T15:44:38Z) - Transparent Object Depth Completion [11.825680661429825]
理解と操作のための透明な物体の認識は、依然として大きな課題である。
深度マップに大きく依存する既存のロボットグリップ法は、その独特の視覚特性のために透明な物体には適さない。
本稿では,一視点RGB-Dに基づく深度推定と多視点深度推定の長所を組み合わせた,透明物体深度補完のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:38:06Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - StereoPose: Category-Level 6D Transparent Object Pose Estimation from
Stereo Images via Back-View NOCS [106.62225866064313]
本稿では,カテゴリレベルのオブジェクトポーズ推定のためのステレオ画像フレームワークであるStereoPoseを紹介する。
純粋なステレオ画像からロバストな推定を行うため、カテゴリレベルのポーズ推定をオブジェクトサイズ推定、初期ポーズ推定、ポーズ修正に分解するパイプラインを開発する。
画像コンテンツエイリアス化の問題に対処するために、透明なオブジェクトに対するバックビューNOCSマップを定義する。
バックビューNOCSは、コンテンツエイリアスによるネットワーク学習のあいまいさを低減し、透明オブジェクトの背面にある情報的手がかりを利用してより正確なポーズ推定を行うことを目的としている。
論文 参考訳(メタデータ) (2022-11-03T08:36:09Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Seeing Glass: Joint Point Cloud and Depth Completion for Transparent
Objects [16.714074893209713]
TranspareNetはジョイントポイントクラウドとディープコンプリートコンプリート方式である。
透明な物体の深さを、散らかって複雑な場面で埋めることができます。
TranspareNetは、既存の最先端のディープコンプリートメソッドを複数のデータセットで上回っている。
論文 参考訳(メタデータ) (2021-09-30T21:09:09Z) - Polka Lines: Learning Structured Illumination and Reconstruction for
Active Stereo [52.68109922159688]
本稿では,波動光学と幾何光学の両方に依存した,アクティブステレオのための新しい微分可能な画像形成モデルと,新しい三眼再構成ネットワークを提案する。
Polka Lines" を再現ネットワークと組み合わせた共同最適化パターンは, 撮像条件全体にわたって, 最先端のアクティブステレオ深度推定を達成している。
論文 参考訳(メタデータ) (2020-11-26T04:02:43Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。