論文の概要: STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects
on Production Lines
- arxiv url: http://arxiv.org/abs/2310.05717v1
- Date: Mon, 9 Oct 2023 13:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:37:24.748941
- Title: STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects
on Production Lines
- Title(参考訳): STOPNet:生産ライン上の透明物体に対する多視点6-DoF吸引検出
- Authors: Yuxuan Kuang, Qin Han, Danshi Li, Qiyu Dai, Lian Ding, Dong Sun,
Hanlin Zhao, He Wang
- Abstract要約: STOPNetは生産ライン上での6-DoFオブジェクトの吸引検出のためのフレームワークである。
本稿では,マルチビューステレオに基づくRGB入力のみに依存して,生産ライン上のシーンを再構築する新しいフレームワークを提案する。
本手法は,シミュレーションと実世界の両方において,新しい環境,新しいアレンジ,新しいオブジェクトに一般化する。
- 参考スコア(独自算出の注目度): 9.258345770382688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present STOPNet, a framework for 6-DoF object suction
detection on production lines, with a focus on but not limited to transparent
objects, which is an important and challenging problem in robotic systems and
modern industry. Current methods requiring depth input fail on transparent
objects due to depth cameras' deficiency in sensing their geometry, while we
proposed a novel framework to reconstruct the scene on the production line
depending only on RGB input, based on multiview stereo. Compared to existing
works, our method not only reconstructs the whole 3D scene in order to obtain
high-quality 6-DoF suction poses in real time but also generalizes to novel
environments, novel arrangements and novel objects, including challenging
transparent objects, both in simulation and the real world. Extensive
experiments in simulation and the real world show that our method significantly
surpasses the baselines and has better generalizability, which caters to
practical industrial needs.
- Abstract(参考訳): 本研究では,ロボットシステムや現代産業において重要な課題である透明物体に限らず,生産ライン上での6-DoFオブジェクト吸引検出のためのフレームワークSTOPNetを提案する。
近年では,深度カメラの形状認識が不足しているため,透明物体に対して深度入力を必要とする手法が提案されているが,マルチビューステレオを用いて,rgb入力のみに応じてシーンを再現する新たな枠組みが提案されている。
既存の作品と比較して, 高品質な6自由度吸入ポーズをリアルタイムで得るために3次元シーン全体を再構成するだけでなく, シミュレーションと実世界の両方において, 新たな環境や新しいアレンジメント, 挑戦的な透明物体を含む新しい物体に一般化する。
シミュレーションと実世界における大規模な実験により,本手法は基礎をはるかに上回り,実用的産業ニーズに適合する優れた一般化性を有することが示された。
関連論文リスト
- Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical
Flow with Monocular Depth Completion Prior [14.049778178534588]
モバイルプラットフォームに適した透明なオブジェクトを再構築するための2段階パイプラインを導入する。
EOF(Epipolar-Guided Optical Flow)は、一貫した3次元再構成に先立って複数の単一視野形状を融合する。
パイプラインは, 3次元再構成品質において, ベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2023-10-15T21:30:06Z) - ObjectSDF++: Improved Object-Compositional Neural Implicit Surfaces [40.489487738598825]
近年,多視点3次元再構成のパラダイムとして神経暗黙的表面再構成が注目されている。
以前の作業では、ObjectSDFは、オブジェクト合成ニューラルな暗黙の面の優れたフレームワークを導入しました。
我々はObjectSDF++と呼ばれる新しいフレームワークを提案し、ObjectSDFの限界を克服する。
論文 参考訳(メタデータ) (2023-08-15T16:35:40Z) - Self-supervised novel 2D view synthesis of large-scale scenes with
efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。
我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。
実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-26T13:57:05Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - GraspNeRF: Multiview-based 6-DoF Grasp Detection for Transparent and
Specular Objects Using Generalizable NeRF [7.47805672405939]
本稿では,マルチビューRGBベースの6-DoFグリップ検出ネットワークGraspNeRFを提案する。
既存のNeRFベースの3-DoFグリップ検出手法と比較して,RGB入力の少ないゼロショットNeRF構成を実現し,リアルタイムに6-DoFグリップを確実に検出できる。
学習データには, 散らばったテーブルトップシーンで把握する大規模フォトリアリスティックなドメインランダム化合成データセットを生成する。
論文 参考訳(メタデータ) (2022-10-12T20:31:23Z) - SimNet: Enabling Robust Unknown Object Manipulation from Pure Synthetic
Data via Stereo [4.317104502755003]
SimNetは、シミュレーションステレオデータを使用して、単一のマルチヘッドニューラルネットワークとして訓練されている。
SimNetは2次元車検出、未知の物体検出、変形可能な物体キーポイント検出で評価される。
OBBとキーポイント予測を用いて把握位置を推定することにより、未知のオブジェクトのエンドツーエンド操作を行うことができる。
論文 参考訳(メタデータ) (2021-06-30T15:18:14Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。