論文の概要: STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects
on Production Lines
- arxiv url: http://arxiv.org/abs/2310.05717v1
- Date: Mon, 9 Oct 2023 13:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:37:24.748941
- Title: STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects
on Production Lines
- Title(参考訳): STOPNet:生産ライン上の透明物体に対する多視点6-DoF吸引検出
- Authors: Yuxuan Kuang, Qin Han, Danshi Li, Qiyu Dai, Lian Ding, Dong Sun,
Hanlin Zhao, He Wang
- Abstract要約: STOPNetは生産ライン上での6-DoFオブジェクトの吸引検出のためのフレームワークである。
本稿では,マルチビューステレオに基づくRGB入力のみに依存して,生産ライン上のシーンを再構築する新しいフレームワークを提案する。
本手法は,シミュレーションと実世界の両方において,新しい環境,新しいアレンジ,新しいオブジェクトに一般化する。
- 参考スコア(独自算出の注目度): 9.258345770382688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present STOPNet, a framework for 6-DoF object suction
detection on production lines, with a focus on but not limited to transparent
objects, which is an important and challenging problem in robotic systems and
modern industry. Current methods requiring depth input fail on transparent
objects due to depth cameras' deficiency in sensing their geometry, while we
proposed a novel framework to reconstruct the scene on the production line
depending only on RGB input, based on multiview stereo. Compared to existing
works, our method not only reconstructs the whole 3D scene in order to obtain
high-quality 6-DoF suction poses in real time but also generalizes to novel
environments, novel arrangements and novel objects, including challenging
transparent objects, both in simulation and the real world. Extensive
experiments in simulation and the real world show that our method significantly
surpasses the baselines and has better generalizability, which caters to
practical industrial needs.
- Abstract(参考訳): 本研究では,ロボットシステムや現代産業において重要な課題である透明物体に限らず,生産ライン上での6-DoFオブジェクト吸引検出のためのフレームワークSTOPNetを提案する。
近年では,深度カメラの形状認識が不足しているため,透明物体に対して深度入力を必要とする手法が提案されているが,マルチビューステレオを用いて,rgb入力のみに応じてシーンを再現する新たな枠組みが提案されている。
既存の作品と比較して, 高品質な6自由度吸入ポーズをリアルタイムで得るために3次元シーン全体を再構成するだけでなく, シミュレーションと実世界の両方において, 新たな環境や新しいアレンジメント, 挑戦的な透明物体を含む新しい物体に一般化する。
シミュレーションと実世界における大規模な実験により,本手法は基礎をはるかに上回り,実用的産業ニーズに適合する優れた一般化性を有することが示された。
関連論文リスト
- ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation [18.140839442955485]
我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。
提案手法は,効率的なデータ生成のためのパラメータ整合,ドメイン適応,物理的に現実的なSim2Realシミュレーションを含む。
実世界のシナリオにおけるSim2Realの例外的な一般化性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-13T15:44:38Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical
Flow with Monocular Depth Completion Prior [14.049778178534588]
モバイルプラットフォームに適した透明なオブジェクトを再構築するための2段階パイプラインを導入する。
EOF(Epipolar-Guided Optical Flow)は、一貫した3次元再構成に先立って複数の単一視野形状を融合する。
パイプラインは, 3次元再構成品質において, ベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2023-10-15T21:30:06Z) - Self-supervised novel 2D view synthesis of large-scale scenes with
efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。
我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。
実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-26T13:57:05Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - GraspNeRF: Multiview-based 6-DoF Grasp Detection for Transparent and
Specular Objects Using Generalizable NeRF [7.47805672405939]
本稿では,マルチビューRGBベースの6-DoFグリップ検出ネットワークGraspNeRFを提案する。
既存のNeRFベースの3-DoFグリップ検出手法と比較して,RGB入力の少ないゼロショットNeRF構成を実現し,リアルタイムに6-DoFグリップを確実に検出できる。
学習データには, 散らばったテーブルトップシーンで把握する大規模フォトリアリスティックなドメインランダム化合成データセットを生成する。
論文 参考訳(メタデータ) (2022-10-12T20:31:23Z) - SimNet: Enabling Robust Unknown Object Manipulation from Pure Synthetic
Data via Stereo [4.317104502755003]
SimNetは、シミュレーションステレオデータを使用して、単一のマルチヘッドニューラルネットワークとして訓練されている。
SimNetは2次元車検出、未知の物体検出、変形可能な物体キーポイント検出で評価される。
OBBとキーポイント予測を用いて把握位置を推定することにより、未知のオブジェクトのエンドツーエンド操作を行うことができる。
論文 参考訳(メタデータ) (2021-06-30T15:18:14Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。