論文の概要: PickScan: Object discovery and reconstruction from handheld interactions
- arxiv url: http://arxiv.org/abs/2411.11196v1
- Date: Sun, 17 Nov 2024 23:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:36:04.314031
- Title: PickScan: Object discovery and reconstruction from handheld interactions
- Title(参考訳): PickScan: ハンドヘルドインタラクションによるオブジェクトの発見と再構築
- Authors: Vincent van der Brugge, Marc Pollefeys, Joshua B. Tenenbaum, Ayush Tewari, Krishna Murthy Jatavallabhula,
- Abstract要約: シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
- 参考スコア(独自算出の注目度): 99.99566882133179
- License:
- Abstract: Reconstructing compositional 3D representations of scenes, where each object is represented with its own 3D model, is a highly desirable capability in robotics and augmented reality. However, most existing methods rely heavily on strong appearance priors for object discovery, therefore only working on those classes of objects on which the method has been trained, or do not allow for object manipulation, which is necessary to scan objects fully and to guide object discovery in challenging scenarios. We address these limitations with a novel interaction-guided and class-agnostic method based on object displacements that allows a user to move around a scene with an RGB-D camera, hold up objects, and finally outputs one 3D model per held-up object. Our main contribution to this end is a novel approach to detecting user-object interactions and extracting the masks of manipulated objects. On a custom-captured dataset, our pipeline discovers manipulated objects with 78.3% precision at 100% recall and reconstructs them with a mean chamfer distance of 0.90cm. Compared to Co-Fusion, the only comparable interaction-based and class-agnostic baseline, this corresponds to a reduction in chamfer distance of 73% while detecting 99% fewer false positives.
- Abstract(参考訳): それぞれのオブジェクトが独自の3Dモデルで表現されるシーンの合成3D表現を再構築することは、ロボット工学や拡張現実において非常に望ましい能力である。
しかし、既存のほとんどのメソッドは、オブジェクト発見の強い外観に大きく依存しているため、メソッドが訓練されたオブジェクトのクラスでのみ動作するか、オブジェクトの操作を許可しない。
我々は,RGB-Dカメラでシーンを移動し,オブジェクトをホールドアップし,最後にホールドアップオブジェクト毎に1つの3Dモデルを出力するオブジェクト変位に基づく,対話誘導およびクラス非依存の手法により,これらの制限に対処する。
この目的に対する我々の主な貢献は、ユーザとオブジェクトの相互作用を検出し、操作対象のマスクを抽出する新しいアプローチである。
カスタムキャプチャーされたデータセットでは、100%リコールで78.3%の精度で操作対象を発見し、平均チャンファー距離0.90cmで再構成する。
コフュージョン (Co-Fusion) と比較すると, シャンファー距離は73%減少し, 偽陽性は99%減少した。
関連論文リスト
- Reconstructing Hand-Held Objects in 3D [53.277402172488735]
本稿では,大規模言語/ビジョンモデルと3次元オブジェクトデータセットの最近のブレークスルーに基づくハンドヘルドオブジェクト再構築のパラダイムを提案する。
我々は、GPT-4(V)を用いて、画像中のオブジェクトにマッチする3次元オブジェクトモデルを検索し、そのモデルをネットワーク推論幾何に整合させる。
実験により、MCC-HOは実験室およびインターネットデータセット上で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - Fit-NGP: Fitting Object Models to Neural Graphics Primitives [19.513102875891775]
本研究では, 高精度なポーズ推定法として, 最先端の高効率放射場再構成法によって生成された密度場が適していることを示す。
本稿では,手首にカメラを装着したロボットアームを用いた完全自動ポーズ推定システムを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:57:56Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation [29.01984677695523]
本稿では6次元非包括的操作のための強化学習手法であるHybrid Actor-Critic Maps for Manipulation (HACMan)を紹介する。
シミュレーションおよび実世界における6次元オブジェクトポーズアライメントタスクにおけるHACManの評価を行った。
代替アクション表現と比較して、HACManは最高のベースラインの3倍以上の成功率を達成する。
論文 参考訳(メタデータ) (2023-05-06T05:55:27Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。