論文の概要: SIMstack: A Generative Shape and Instance Model for Unordered Object
Stacks
- arxiv url: http://arxiv.org/abs/2103.16442v1
- Date: Tue, 30 Mar 2021 15:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 16:50:37.645404
- Title: SIMstack: A Generative Shape and Instance Model for Unordered Object
Stacks
- Title(参考訳): SIMstack: 順序のないオブジェクトスタックのための生成形状とインスタンスモデル
- Authors: Zoe Landgraf, Raluca Scona, Tristan Laidlow, Stephen James, Stefan
Leutenegger, Andrew J. Davison
- Abstract要約: 物理シミュレーションにより積み上げられた物体のデータセットに訓練された深度条件付き可変オートエンコーダ(VAE)を提案する。
インスタンスセグメンテーションは、クラスに依存しない検出を可能にし、シーン内のオブジェクトの最大数を設定する必要がないセンター投票タスクとして定式化します。
本手法は,ロボットに部分的に観察されたシーンを素早く直感的に推論する能力を与えるための実用的応用である。
- 参考スコア(独自算出の注目度): 38.042876641457255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By estimating 3D shape and instances from a single view, we can capture
information about an environment quickly, without the need for comprehensive
scanning and multi-view fusion. Solving this task for composite scenes (such as
object stacks) is challenging: occluded areas are not only ambiguous in shape
but also in instance segmentation; multiple decompositions could be valid. We
observe that physics constrains decomposition as well as shape in occluded
regions and hypothesise that a latent space learned from scenes built under
physics simulation can serve as a prior to better predict shape and instances
in occluded regions. To this end we propose SIMstack, a depth-conditioned
Variational Auto-Encoder (VAE), trained on a dataset of objects stacked under
physics simulation. We formulate instance segmentation as a centre voting task
which allows for class-agnostic detection and doesn't require setting the
maximum number of objects in the scene. At test time, our model can generate 3D
shape and instance segmentation from a single depth view, probabilistically
sampling proposals for the occluded region from the learned latent space. Our
method has practical applications in providing robots some of the ability
humans have to make rapid intuitive inferences of partially observed scenes. We
demonstrate an application for precise (non-disruptive) object grasping of
unknown objects from a single depth view.
- Abstract(参考訳): 単一ビューから3次元形状とインスタンスを推定することにより、包括的スキャンやマルチビュー融合を必要とせずに、環境に関する情報を素早く取得できる。
複合シーン(オブジェクトスタックなど)に対するこのタスクの解決は難しい: 隠蔽された領域は、形があいまいであるだけでなく、インスタンスのセグメンテーションにおいても、複数の分解が有効である。
物理シミュレーションでは, 隠蔽領域の分解や形状を制約し, 物理シミュレーションで構築したシーンから学習した潜伏空間が, 隠蔽領域の形状や事例の予測に先立って有効であると仮定する。
この目的のために我々は,物理シミュレーションで積み重ねられたオブジェクトのデータセット上でトレーニングされた,奥行き条件付き変分オートエンコーダ(vae)であるsimstackを提案する。
インスタンスセグメンテーションを中心投票タスクとして定式化し、クラスに依存しない検出を可能にし、シーン内のオブジェクトの最大数を設定する必要がない。
テスト時には,学習した潜伏空間から隠蔽領域の提案を確率的にサンプリングし,単一の深度ビューから3次元形状とインスタンスセグメンテーションを生成する。
本手法は,ロボットに部分的に観察されたシーンを素早く直感的に推論する能力を与えるための実用的応用である。
単一深度ビューから未知の物体を正確に(非破壊的に)把握するための応用を実証する。
関連論文リスト
- Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping [14.958823096408175]
基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。
本稿では,そのような物体識別モデルの訓練に焦点をあてる。
このようなモデルをトレーニングするための主要な解決策は、遠心三重項損失(CTL)である。
論文 参考訳(メタデータ) (2024-04-09T13:01:26Z) - Robust Shape Fitting for 3D Scene Abstraction [33.84212609361491]
特に,キュービドやシリンダーなどのボリュームプリミティブを用いて人工環境を記述することができる。
プリミティブフィッティングのためのロバストな推定器を提案し、キュービドを用いて複雑な現実世界環境を有意に抽象化する。
NYU Depth v2データセットの結果、提案アルゴリズムは、乱雑な現実世界の3Dシーンレイアウトをうまく抽象化することを示した。
論文 参考訳(メタデータ) (2024-03-15T16:37:43Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Category-level Shape Estimation for Densely Cluttered Objects [94.64287790278887]
そこで本研究では,密に散らばった物体のカテゴリレベルの形状推定手法を提案する。
我々のフレームワークは、多視点視覚情報融合によって、各オブジェクトをクラッタに分割する。
シミュレーション環境と実世界の実験から,本手法が高精度な形状推定を実現することが示された。
論文 参考訳(メタデータ) (2023-02-23T13:00:17Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - ShAPO: Implicit Representations for Multi-Object Shape, Appearance, and
Pose Optimization [40.36229450208817]
SAPO, 関節多物体検出法, 3次元テクスチャ再構築法, 6次元オブジェクトポーズ法, サイズ推定法を提案する。
ShAPOのキーはシングルショットのパイプラインで、各オブジェクトインスタンスのマスクとともに、形状、外観、遅延コードのポーズをレグレッションする。
提案手法は,NOCSデータセット上でのベースライン全体の性能を,6次元ポーズ推定におけるmAPの8%の絶対的な改善で著しく向上させる。
論文 参考訳(メタデータ) (2022-07-27T17:59:31Z) - Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images [44.223070672713455]
特に、人為的な環境は、一般的にキュービドやシリンダーのようなボリュームプリミティブから成り立っている。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できる。
立方体を用いた実世界の環境を有意義に抽象化するプリミティブフィッティングのための堅牢な推定器を提案する。
論文 参考訳(メタデータ) (2021-05-05T13:36:00Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。