論文の概要: Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical
Flow with Monocular Depth Completion Prior
- arxiv url: http://arxiv.org/abs/2310.09956v1
- Date: Sun, 15 Oct 2023 21:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:07:00.618339
- Title: Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical
Flow with Monocular Depth Completion Prior
- Title(参考訳): 単眼深度を先行した過分極誘導光流によるテーブルトップ透明シーン再構成
- Authors: Xiaotong Chen, Zheming Zhou, Zhuo Deng, Omid Ghasemalizadeh, Min Sun,
Cheng-Hao Kuo, Arnie Sen
- Abstract要約: モバイルプラットフォームに適した透明なオブジェクトを再構築するための2段階パイプラインを導入する。
EOF(Epipolar-Guided Optical Flow)は、一貫した3次元再構成に先立って複数の単一視野形状を融合する。
パイプラインは, 3次元再構成品質において, ベースライン法を著しく上回っている。
- 参考スコア(独自算出の注目度): 14.049778178534588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing transparent objects using affordable RGB-D cameras is a
persistent challenge in robotic perception due to inconsistent appearances
across views in the RGB domain and inaccurate depth readings in each
single-view. We introduce a two-stage pipeline for reconstructing transparent
objects tailored for mobile platforms. In the first stage, off-the-shelf
monocular object segmentation and depth completion networks are leveraged to
predict the depth of transparent objects, furnishing single-view shape prior.
Subsequently, we propose Epipolar-guided Optical Flow (EOF) to fuse several
single-view shape priors from the first stage to a cross-view consistent 3D
reconstruction given camera poses estimated from opaque part of the scene. Our
key innovation lies in EOF which employs boundary-sensitive sampling and
epipolar-line constraints into optical flow to accurately establish 2D
correspondences across multiple views on transparent objects. Quantitative
evaluations demonstrate that our pipeline significantly outperforms baseline
methods in 3D reconstruction quality, paving the way for more adept robotic
perception and interaction with transparent objects.
- Abstract(参考訳): 安価なRGB-Dカメラを用いて透明なオブジェクトを再構成することは、RGBドメインのビュー間の不整合な出現と、各単一ビューにおける不正確な深度読み取りによるロボット知覚における永続的な課題である。
モバイルプラットフォームに適した透明なオブジェクトを再構築するための2段階パイプラインを導入する。
第1段階では、既製の単分子物体のセグメント化と深度補完網を利用して透明物体の深さを予測する。
その後、シーンの不透明な部分から推定されるカメラのポーズを、一段目から一貫した3D再構成に融合させるエピポーラ誘導光流(EOF)を提案する。
私たちの重要な革新は、境界感応性サンプリングとエピポーラ線制約を光学流に応用し、透明物体の複数のビューにまたがる2D対応を正確に確立するEOFです。
定量的評価により,我々のパイプラインは3次元再構成の精度でベースライン法を著しく上回り,ロボットの知覚と透明物体との相互作用が促進された。
関連論文リスト
- STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects
on Production Lines [9.258345770382688]
STOPNetは生産ライン上での6-DoFオブジェクトの吸引検出のためのフレームワークである。
本稿では,マルチビューステレオに基づくRGB入力のみに依存して,生産ライン上のシーンを再構築する新しいフレームワークを提案する。
本手法は,シミュレーションと実世界の両方において,新しい環境,新しいアレンジ,新しいオブジェクトに一般化する。
論文 参考訳(メタデータ) (2023-10-09T13:39:06Z) - TransNet: Transparent Object Manipulation Through Category-Level Pose
Estimation [6.844391823478345]
局所化深度補完と表面正規化を用いたカテゴリレベルの透明なオブジェクトポーズを推定する2段階パイプラインを提案する。
その結果,トランスネットは透明物体のポーズ推定精度の向上を実現していることがわかった。
われわれはTransNetを使って、ロボットピック・アンド・プレイスと注ぐタスクのための自律的透明なオブジェクト操作システムを構築している。
論文 参考訳(メタデータ) (2023-07-23T18:38:42Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - StereoPose: Category-Level 6D Transparent Object Pose Estimation from
Stereo Images via Back-View NOCS [106.62225866064313]
本稿では,カテゴリレベルのオブジェクトポーズ推定のためのステレオ画像フレームワークであるStereoPoseを紹介する。
純粋なステレオ画像からロバストな推定を行うため、カテゴリレベルのポーズ推定をオブジェクトサイズ推定、初期ポーズ推定、ポーズ修正に分解するパイプラインを開発する。
画像コンテンツエイリアス化の問題に対処するために、透明なオブジェクトに対するバックビューNOCSマップを定義する。
バックビューNOCSは、コンテンツエイリアスによるネットワーク学習のあいまいさを低減し、透明オブジェクトの背面にある情報的手がかりを利用してより正確なポーズ推定を行うことを目的としている。
論文 参考訳(メタデータ) (2022-11-03T08:36:09Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - TODE-Trans: Transparent Object Depth Estimation with Transformer [16.928131778902564]
トランスを用いた1つのRGB-D入力からの透明物体深度推定手法を提案する。
きめ細かい機能を強化するため、特徴融合モジュール(FFM)はコヒーレントな予測を支援するように設計されている。
論文 参考訳(メタデータ) (2022-09-18T03:04:01Z) - Seeing Glass: Joint Point Cloud and Depth Completion for Transparent
Objects [16.714074893209713]
TranspareNetはジョイントポイントクラウドとディープコンプリートコンプリート方式である。
透明な物体の深さを、散らかって複雑な場面で埋めることができます。
TranspareNetは、既存の最先端のディープコンプリートメソッドを複数のデータセットで上回っている。
論文 参考訳(メタデータ) (2021-09-30T21:09:09Z) - Polka Lines: Learning Structured Illumination and Reconstruction for
Active Stereo [52.68109922159688]
本稿では,波動光学と幾何光学の両方に依存した,アクティブステレオのための新しい微分可能な画像形成モデルと,新しい三眼再構成ネットワークを提案する。
Polka Lines" を再現ネットワークと組み合わせた共同最適化パターンは, 撮像条件全体にわたって, 最先端のアクティブステレオ深度推定を達成している。
論文 参考訳(メタデータ) (2020-11-26T04:02:43Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Through the Looking Glass: Neural 3D Reconstruction of Transparent
Shapes [75.63464905190061]
屈折と反射によって誘導される複雑な光路は、従来の多視点ステレオと深いステレオの両方がこの問題を解決するのを妨げている。
携帯電話カメラで取得したいくつかの画像を用いて透明物体の3次元形状を復元する物理ネットワークを提案する。
5-12個の自然画像を用いて, 複雑な透明形状に対する高品質な3次元形状の復元に成功した。
論文 参考訳(メタデータ) (2020-04-22T23:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。