論文の概要: Diverse Plausible Shape Completions from Ambiguous Depth Images
- arxiv url: http://arxiv.org/abs/2011.09390v1
- Date: Wed, 18 Nov 2020 16:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 05:06:22.060417
- Title: Diverse Plausible Shape Completions from Ambiguous Depth Images
- Title(参考訳): あいまいな深度画像からの多次元可塑性形状補完
- Authors: Brad Saund and Dmitry Berenson
- Abstract要約: PSSNetは1枚の2.5D深度画像から可塑性3D再構成を生成するネットワークアーキテクチャである。
本研究では,Shapenetのマグカップと部分的に隠されたYCBオブジェクトを用いて実験を行い,あいまいさの少ないデータセットで比較可能であることを確認した。
- 参考スコア(独自算出の注目度): 7.652701739127332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose PSSNet, a network architecture for generating diverse plausible 3D
reconstructions from a single 2.5D depth image. Existing methods tend to
produce only small variations on a single shape, even when multiple shapes are
consistent with an observation. To obtain diversity we alter a Variational Auto
Encoder by providing a learned shape bounding box feature as side information
during training. Since these features are known during training, we are able to
add a supervised loss to the encoder and noiseless values to the decoder. To
evaluate, we sample a set of completions from a network, construct a set of
plausible shape matches for each test observation, and compare using our
plausible diversity metric defined over sets of shapes. We perform experiments
using Shapenet mugs and partially-occluded YCB objects and find that our method
performs comparably in datasets with little ambiguity, and outperforms existing
methods when many shapes plausibly fit an observed depth image. We demonstrate
one use for PSSNet on a physical robot when grasping objects in occlusion and
clutter.
- Abstract(参考訳): 2.5次元深度画像から多種多様な3次元再構成を生成するネットワークアーキテクチャpssnetを提案する。
既存の手法では、複数の形状が観測と一致している場合でも、単一の形状に小さなバリエーションしか生じない傾向にある。
訓練中、学習した形状境界ボックス特徴をサイド情報として提供して、変動オートエンコーダを変更する。
これらの機能はトレーニング中に知られているので、エンコーダに教師付き損失とデコーダにノイズレス値を加えることができる。
評価するために,ネットワークから完成度の集合をサンプリングし,各実験観察値に適合する可能な形状のセットを構築し,形状のセット上で定義された自明な多様性計量を用いて比較する。
本手法は,シェープネットミューグと部分的にオクルードされたycbオブジェクトを用いて実験を行い,曖昧さの少ないデータセットで比較可能であり,多くの形状が観測された奥行き画像に適合する場合に既存の手法よりも優れることを示す。
物体を隠蔽・乱雑に把握する際の物理ロボット上でのPSSNetの利用例を示す。
関連論文リスト
- Self-supervised 3D Point Cloud Completion via Multi-view Adversarial Learning [61.14132533712537]
我々は、オブジェクトレベルとカテゴリ固有の幾何学的類似性の両方を効果的に活用するフレームワークであるMAL-SPCを提案する。
私たちのMAL-SPCは3Dの完全な監視を一切必要とせず、各オブジェクトに1つの部分点クラウドを必要とするだけです。
論文 参考訳(メタデータ) (2024-07-13T06:53:39Z) - 3DMiner: Discovering Shapes from Large-Scale Unannotated Image Datasets [34.610546020800236]
3DMinerは、挑戦的なデータセットから3D形状をマイニングするためのパイプラインである。
本手法は最先端の教師なし3次元再構成技術よりもはるかに優れた結果が得られる。
LAION-5Bデータセットから得られる画像の形状を再構成することにより,3DMinerを組込みデータに適用する方法を示す。
論文 参考訳(メタデータ) (2023-10-29T23:08:19Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Zero in on Shape: A Generic 2D-3D Instance Similarity Metric learned
from Synthetic Data [3.71630298053787]
本稿では,RGB画像と非テクスチャ型3Dモデルとを表現形状の類似性で比較するネットワークアーキテクチャを提案する。
我々のシステムはゼロショット検索に最適化されており、訓練で示されることのない形状を認識することができる。
論文 参考訳(メタデータ) (2021-08-09T14:44:08Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。