Fugu-MT 論文翻訳(概要): PEGG-Net: Pixel-Wise Efficient Grasp Generation in Complex Scenes

論文の概要: PEGG-Net: Pixel-Wise Efficient Grasp Generation in Complex Scenes

arxiv url: http://arxiv.org/abs/2203.16301v3
Date: Thu, 13 Jul 2023 09:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-14 17:56:26.567035
Title: PEGG-Net: Pixel-Wise Efficient Grasp Generation in Complex Scenes
Title（参考訳）: pegg-net:複雑なシーンにおけるピクセル単位で効率的な把持生成
Authors: Haozhe Wang, Zhiyang Liu, Lei Zhou, Huan Yin, and Marcelo H Ang Jr
Abstract要約: 本研究では,既存の平面グリップ推定アルゴリズムについて検討し,複雑な場面における課題を解析する。複雑な場面で把握する問題に対処するため,Pixel-wise Efficient Grasp Generation Network (PEGG-Net) を設計する。 PEGG-Netはコーネルデータセット(98.9%)の最先端性能とジャカードデータセット(93.8%)の2番目に高いパフォーマンスを達成することができる。
参考スコア（独自算出の注目度）: 7.907697609965681
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-based grasp estimation is an essential part of robotic manipulation tasks in the real world. Existing planar grasp estimation algorithms have been demonstrated to work well in relatively simple scenes. But when it comes to complex scenes, such as cluttered scenes with messy backgrounds and moving objects, the algorithms from previous works are prone to generate inaccurate and unstable grasping contact points. In this work, we first study the existing planar grasp estimation algorithms and analyze the related challenges in complex scenes. Secondly, we design a Pixel-wise Efficient Grasp Generation Network (PEGG-Net) to tackle the problem of grasping in complex scenes. PEGG-Net can achieve improved state-of-the-art performance on the Cornell dataset (98.9%) and second-best performance on the Jacquard dataset (93.8%), outperforming other existing algorithms without the introduction of complex structures. Thirdly, PEGG-Net could operate in a closed-loop manner for added robustness in dynamic environments using position-based visual servoing (PBVS). Finally, we conduct real-world experiments on static, dynamic, and cluttered objects in different complex scenes. The results show that our proposed network achieves a high success rate in grasping irregular objects, household objects, and workshop tools. To benefit the community, our trained model and supplementary materials are available at https://github.com/HZWang96/PEGG-Net.
Abstract（参考訳）: 視覚に基づく把持推定は、現実世界におけるロボット操作タスクの重要な部分である。既存の平面把握推定アルゴリズムは、比較的単純なシーンでうまく機能することが示されている。しかし、乱雑な背景や動く物体が散らかっているような複雑なシーンの場合、以前の作品のアルゴリズムは不正確で不安定な接触点を生成する傾向があります。本研究では,既存の平面把握推定アルゴリズムについて検討し,複雑な場面における課題を解析する。第2に,複雑なシーンの把握の問題に対処するため,Pixel-wise Efficient Grasp Generation Network (PEGG-Net) を設計する。 PEGG-Netはコーネルデータセット(98.9%)の最先端性能とジャカードデータセット(93.8%)の2番目に高いパフォーマンスを達成でき、複雑な構造を導入することなく既存のアルゴリズムよりも優れている。第三に、PEGG-Netは位置ベースビジュアルサーボ(PBVS)を使用して動的環境にロバスト性を加えるためにクローズドループで動作することができた。最後に,異なる複雑な場面において,静的,動的,乱雑な物体について実世界実験を行う。その結果,提案ネットワークは不規則な物や家庭用物,ワークショップツールの把握において,高い成功率を達成した。コミュニティに利益をもたらすため、トレーニングされたモデルと補助資料はhttps://github.com/HZWang96/PEGG-Net.comで入手できる。

関連論文リスト

ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。 3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文参考訳（メタデータ） (2025-02-26T10:25:32Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition [8.654140442734354]
不慣れな物体のタスク指向の把握は、動的家庭環境におけるロボットにとって必要なスキルである。本稿では,対象物体の幾何学的分解を簡単な凸形状に生かしたゼロショットタスク指向の把握手法を提案する。このアプローチでは、ゼロショットタスク指向の把握を容易にするために、最小限の必須情報(オブジェクト名と意図したタスク)を使用します。
論文参考訳（メタデータ） (2024-03-26T19:26:53Z)
ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文参考訳（メタデータ） (2024-01-18T12:41:41Z)
GraNet: A Multi-Level Graph Network for 6-DoF Grasp Pose Generation in Cluttered Scenes [0.5755004576310334]
GraNetはグラフベースのグリップポーズ生成フレームワークで、ポイントクラウドシーンをマルチレベルグラフに変換する。このパイプラインは, 散在するシーンにおけるグリップの空間分布を特徴付けることができ, 効果的グリップの速度が向上する。提案手法は,大規模GraspNet-1Billionベンチマークにおいて,特に未確認オブジェクトの把握において,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-12-06T08:36:29Z)
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文参考訳（メタデータ） (2023-11-09T22:55:10Z)
Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文参考訳（メタデータ） (2022-08-08T08:15:34Z)
Iterative Corresponding Geometry: Fusing Region and Depth for Highly Efficient 3D Tracking of Textureless Objects [25.448657318818764]
ICGは領域と深度情報を融合させる新しい確率的トラッカーであり、物体形状のみを必要とする。本手法では, 対応線を配置し, ポーズを反復的に洗練する。 YCB-Video、OPT、Choiデータセットの実験は、テクスチャ化されたオブジェクトであっても、我々のアプローチが現在の技術よりも優れていることを示した。
論文参考訳（メタデータ） (2022-03-10T12:30:50Z)
RICE: Refining Instance Masks in Cluttered Environments with Graph Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文参考訳（メタデータ） (2021-06-29T20:29:29Z)
Analysis of voxel-based 3D object detection methods efficiency for real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文参考訳（メタデータ） (2021-05-21T12:40:59Z)
REGRAD: A Large-Scale Relational Grasp Dataset for Safe and Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。データセットは2D画像と3Dポイントクラウドの両方で収集されます。ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文参考訳（メタデータ） (2021-04-29T05:31:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。