論文の概要: NBMOD: Find It and Grasp It in Noisy Background
- arxiv url: http://arxiv.org/abs/2306.10265v1
- Date: Sat, 17 Jun 2023 05:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 23:25:03.540568
- Title: NBMOD: Find It and Grasp It in Noisy Background
- Title(参考訳): NBMOD: ノイズの多いバックグラウンドでそれを見つけて、グラフ化する
- Authors: Boyuan Cao, Xinyu Zhou, Congmin Guo, Baohua Zhang, Yuchen Liu, Qianqiu
Tan
- Abstract要約: NBMOD: Noisy background Multi-Object for grasp detectionを提案する。
本稿では,この問題に対処する回転アンカー機構(RAM)を提案する。
ロボットシステムの高リアルタイム要求を考慮したRA-GraspNet (GraspNet with Rotation Anchor and Region Attention) RARA (Network with Rotation Anchor and Region Attention) RAST (network with Rotation Anchor and Semi Transformer) RAGT (network with Rotation Anchor and Global Transformer)を提案する。
- 参考スコア(独自算出の注目度): 15.959994864858958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grasping objects is a fundamental yet important capability of robots, and
many tasks such as sorting and picking rely on this skill. The prerequisite for
stable grasping is the ability to correctly identify suitable grasping
positions. However, finding appropriate grasping points is challenging due to
the diverse shapes, varying density distributions, and significant differences
between the barycenter of various objects. In the past few years, researchers
have proposed many methods to address the above-mentioned issues and achieved
very good results on publicly available datasets such as the Cornell dataset
and the Jacquard dataset. The problem is that the backgrounds of Cornell and
Jacquard datasets are relatively simple - typically just a whiteboard, while in
real-world operational environments, the background could be complex and noisy.
Moreover, in real-world scenarios, robots usually only need to grasp fixed
types of objects. To address the aforementioned issues, we proposed a
large-scale grasp detection dataset called NBMOD: Noisy Background Multi-Object
Dataset for grasp detection, which consists of 31,500 RGB-D images of 20
different types of fruits. Accurate prediction of angles has always been a
challenging problem in the detection task of oriented bounding boxes. This
paper presents a Rotation Anchor Mechanism (RAM) to address this issue.
Considering the high real-time requirement of robotic systems, we propose a
series of lightweight architectures called RA-GraspNet (GraspNet with Rotation
Anchor): RARA (network with Rotation Anchor and Region Attention), RAST
(network with Rotation Anchor and Semi Transformer), and RAGT (network with
Rotation Anchor and Global Transformer) to tackle this problem. Among them, the
RAGT-3/3 model achieves an accuracy of 99% on the NBMOD dataset. The NBMOD and
our code are available at https://github.com/kmittle/Grasp-Detection-NBMOD.
- Abstract(参考訳): オブジェクトのグラッピングはロボットの基本的かつ重要な能力であり、ソートやピックといった多くのタスクはこのスキルに依存している。
安定した把握の前提条件は、適切な把握位置を正しく識別する能力である。
しかし, 多様な形状, 密度分布, および様々な物体のバリ中心間の有意差により, 適切な把握点の発見は困難である。
過去数年間、研究者は上記の問題に対処する多くの方法を提案し、コーネルデータセットやjacquardデータセットなどの公開データセットで非常に良い結果を得た。
問題は、CornelとJacquardのデータセットの背景は比較的単純である ― 通常はホワイトボードだが、実際の運用環境では、背景は複雑でうるさい。
さらに、現実世界のシナリオでは、ロボットは通常、固定されたタイプのオブジェクトのみをつかむ必要がある。
そこで本研究では,20種類の果実の31,500 rgb-d画像からなる,把握検出のための雑音下背景マルチオブジェクトデータセットnbmodという大規模把持検出データセットを提案する。
角度の正確な予測は、常に向き付けられた境界ボックスの検出タスクにおいて難しい問題である。
本稿では,この問題に対処する回転アンカー機構(RAM)を提案する。
本研究では,ロボットシステムの高リアルタイム要件を考慮し,ra-graspnet (graspnet with rotation anchor),rara (network with rotation anchor and region attention),rast (network with rotation anchor and semi transformer),ragt (network with rotation anchor and global transformer) という一連の軽量アーキテクチャを提案する。
RAGT-3/3モデルはNAMODデータセットで99%の精度を達成する。
NBMODと私たちのコードはhttps://github.com/kmittle/Grasp-Detection-NBMODで利用可能です。
関連論文リスト
- PG-RCNN: Semantic Surface Point Generation for 3D Object Detection [19.341260543105548]
ポイントジェネレーションR-CNN(PG-RCNN)は、3次元物体検出のための新しいエンドツーエンド検出器である。
共同でトレーニングされたRoIポイント生成モジュールを使用して、RoIのコンテキスト情報を処理する。
PG-RCNNは生成された全ての点について、推定された前景確率を示す意味的特徴を割り当てる。
論文 参考訳(メタデータ) (2023-07-24T09:22:09Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Anchor-free Oriented Proposal Generator for Object Detection [59.54125119453818]
オブジェクト指向物体検出はリモートセンシング画像解釈において実用的で困難な課題である。
今日では、指向性検出器は主に水平方向の箱を中間体として使用し、それらから指向性のある箱を導出している。
本稿では,ネットワークアーキテクチャから水平ボックス関連操作を放棄する,AOPG(Anchor-free Oriented Proposal Generator)を提案する。
論文 参考訳(メタデータ) (2021-10-05T10:45:51Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - Rapid Pose Label Generation through Sparse Representation of Unknown
Objects [7.32172860877574]
本研究は、未知のオブジェクトに対する実世界のポーズアノテートされたRGB-Dデータを高速に生成するためのアプローチを提案する。
我々はまず、RGB-Dビデオのセット上で任意に選択されたキーポイントの順序付きセットの最小限のラベルを出力する。
最適化問題を解くことにより、これらのラベルをワールドフレームの下に組み合わせ、スパースでキーポイントに基づくオブジェクトの表現を復元する。
論文 参考訳(メタデータ) (2020-11-07T15:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。