論文の概要: MVTrans: Multi-View Perception of Transparent Objects
- arxiv url: http://arxiv.org/abs/2302.11683v1
- Date: Wed, 22 Feb 2023 22:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:46:19.800443
- Title: MVTrans: Multi-View Perception of Transparent Objects
- Title(参考訳): MVTrans: 透明オブジェクトのマルチビュー認識
- Authors: Yi Ru Wang, Yuchi Zhao, Haoping Xu, Saggi Eppel, Alan Aspuru-Guzik,
Florian Shkurti, Animesh Garg
- Abstract要約: 我々は、RGB-Dセンサから信頼できない深度マップを除外し、ステレオ法を拡張した。
提案手法であるMVTransは,複数の知覚能力を持つエンドツーエンドのマルチビューアーキテクチャである。
我々は、新しい手続き型フォトリアリスティックデータセット生成パイプラインを構築し、大規模透明なオブジェクト検出データセットを作成する。
- 参考スコア(独自算出の注目度): 29.851395075937255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transparent object perception is a crucial skill for applications such as
robot manipulation in household and laboratory settings. Existing methods
utilize RGB-D or stereo inputs to handle a subset of perception tasks including
depth and pose estimation. However, transparent object perception remains to be
an open problem. In this paper, we forgo the unreliable depth map from RGB-D
sensors and extend the stereo based method. Our proposed method, MVTrans, is an
end-to-end multi-view architecture with multiple perception capabilities,
including depth estimation, segmentation, and pose estimation. Additionally, we
establish a novel procedural photo-realistic dataset generation pipeline and
create a large-scale transparent object detection dataset, Syn-TODD, which is
suitable for training networks with all three modalities, RGB-D, stereo and
multi-view RGB. Project Site: https://ac-rad.github.io/MVTrans/
- Abstract(参考訳): 透明物体認識は、家庭や実験室におけるロボット操作などの応用にとって重要な技術である。
既存の方法はRGB-Dまたはステレオ入力を使用して、深度やポーズ推定を含む知覚タスクのサブセットを処理する。
しかし、透明な物体認識は未解決の問題である。
本稿では,RGB-Dセンサから信頼できない深度マップを作成し,ステレオ法を拡張した。
提案手法であるMVTransは,深度推定,セグメンテーション,ポーズ推定など,複数の知覚能力を備えたエンドツーエンドのマルチビューアーキテクチャである。
さらに,rgb-d,ステレオ,マルチビューrgbの3種類のトレーニングネットワークに適した,新しい手続き型フォトリアリスティックデータセット生成パイプラインを構築し,大規模な透明オブジェクト検出データセットsyn-toddを作成した。
プロジェクトサイト: https://ac-rad.github.io/mvtrans/
関連論文リスト
- ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation [18.140839442955485]
我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。
提案手法は,効率的なデータ生成のためのパラメータ整合,ドメイン適応,物理的に現実的なSim2Realシミュレーションを含む。
実世界のシナリオにおけるSim2Realの例外的な一般化性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-13T15:44:38Z) - ASGrasp: Generalizable Transparent Object Reconstruction and Grasping from RGB-D Active Stereo Camera [9.212504138203222]
RGB-Dアクティブステレオカメラを用いた6自由度グリップ検出ネットワークASGraspを提案する。
本システムでは, 透明物体形状再構成において, 生のIRおよびRGB画像を直接利用できることで, 自己を識別する。
実験により、ASGraspは、一般化可能な透明物体把握において90%以上の成功率を達成できることが示された。
論文 参考訳(メタデータ) (2024-05-09T09:44:51Z) - Grasping the Inconspicuous [15.274311118568715]
本研究では,RGB画像からの深層学習による6次元ポーズ推定について検討した。
透明物体を把握するためのRGB画像空間の有効性を実験により実証した。
論文 参考訳(メタデータ) (2022-11-15T14:45:50Z) - Beyond Visual Field of View: Perceiving 3D Environment with Echoes and
Vision [51.385731364529306]
本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。
特に、複数の方向から受信したエコーでRGB画像を融合して深度推定を行う。
本稿では,RGB像を補完する3次元構造について,エコーが包括的かつ包括的情報を提供することを示す。
論文 参考訳(メタデータ) (2022-07-03T22:31:47Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Seeing Glass: Joint Point Cloud and Depth Completion for Transparent
Objects [16.714074893209713]
TranspareNetはジョイントポイントクラウドとディープコンプリートコンプリート方式である。
透明な物体の深さを、散らかって複雑な場面で埋めることができます。
TranspareNetは、既存の最先端のディープコンプリートメソッドを複数のデータセットで上回っている。
論文 参考訳(メタデータ) (2021-09-30T21:09:09Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - RGB-D Local Implicit Function for Depth Completion of Transparent
Objects [43.238923881620494]
ロボット工学における認識方法の大部分は、RGB-Dカメラが提供する深度情報を必要とする。
標準的な3Dセンサーは、屈折と光の吸収により透明な物体の深さを捉えられない。
ノイズの多いRGB-D入力を考慮し,欠損深度を完備できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:00:04Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。