論文の概要: OptiGrasp: Optimized Grasp Pose Detection Using RGB Images for Warehouse Picking Robots
- arxiv url: http://arxiv.org/abs/2409.19494v1
- Date: Sun, 29 Sep 2024 00:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:35.452610
- Title: OptiGrasp: Optimized Grasp Pose Detection Using RGB Images for Warehouse Picking Robots
- Title(参考訳): OptiGrasp:暖房用ピッキングロボットのためのRGB画像を用いた最適グラフポス検出
- Authors: Soofiyan Atar, Yi Li, Markus Grotz, Michael Wolf, Dieter Fox, Joshua Smith,
- Abstract要約: 倉庫環境では、ロボットはさまざまなオブジェクトを管理するために堅牢なピッキング機能を必要とする。
基礎モデルを活用する革新的な手法を提案し,RGB画像のみを用いた吸引把握を向上する。
我々のネットワークは実世界のアプリケーションで82.3%の成功率を達成した。
- 参考スコア(独自算出の注目度): 27.586777997464644
- License:
- Abstract: In warehouse environments, robots require robust picking capabilities to manage a wide variety of objects. Effective deployment demands minimal hardware, strong generalization to new products, and resilience in diverse settings. Current methods often rely on depth sensors for structural information, which suffer from high costs, complex setups, and technical limitations. Inspired by recent advancements in computer vision, we propose an innovative approach that leverages foundation models to enhance suction grasping using only RGB images. Trained solely on a synthetic dataset, our method generalizes its grasp prediction capabilities to real-world robots and a diverse range of novel objects not included in the training set. Our network achieves an 82.3\% success rate in real-world applications. The project website with code and data will be available at http://optigrasp.github.io.
- Abstract(参考訳): 倉庫環境では、ロボットはさまざまなオブジェクトを管理するために堅牢なピッキング機能を必要とする。
効果的なデプロイメントには、最小限のハードウェア、新製品への強力な一般化、さまざまな設定でのレジリエンスが必要だ。
現在の手法は、しばしば高コスト、複雑な設定、技術的な制限に悩まされる構造情報に対する深度センサーに依存している。
コンピュータビジョンの最近の進歩に触発されて,基礎モデルを活用し,RGB画像のみを用いた吸引把握を向上させる革新的なアプローチを提案する。
本手法は,合成データセットのみを用いて学習し,その把握能力を実世界のロボットに一般化し,トレーニングセットに含まれない多様な新しい物体を探索する。
我々のネットワークは実世界のアプリケーションで82.3倍の成功率を達成した。
コードとデータを備えたプロジェクトのWebサイトはhttp://optigrasp.github.io.comで公開されている。
関連論文リスト
- Close the Sim2real Gap via Physically-based Structured Light Synthetic Data Simulation [16.69742672616517]
我々は、RGBと物理的にリアルな深度画像を生成する革新的な構造化光シミュレーションシステムを導入する。
ロボット産業の把握シナリオに適したRGBDデータセットを作成します。
sim2realのギャップを減らし、深層学習訓練を強化することにより、深層学習モデルを産業環境に適用しやすくする。
論文 参考訳(メタデータ) (2024-07-17T09:57:14Z) - RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。
我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文 参考訳(メタデータ) (2023-10-16T09:30:45Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - IFOR: Iterative Flow Minimization for Robotic Object Rearrangement [92.97142696891727]
IFOR(Iterative Flow Minimization for Robotic Object Rearrangement)は、未知物体の物体再構成問題に対するエンドツーエンドの手法である。
本手法は,合成データのみを訓練しながら,散在するシーンや実世界に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-01T20:03:56Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Visual Domain Adaptation for Monocular Depth Estimation on
Resource-Constrained Hardware [3.7399856406582086]
我々は、ビジュアルドメイン適応の文脈において、リソース制約のあるハードウェア上でディープニューラルネットワークをトレーニングする問題に対処する。
本稿では,限られたリソースを持つデバイス上での学習に適応した逆学習手法を提案する。
実験の結果,視覚領域適応は効率的なネットワークアーキテクチャとトレーニングセットにのみ関係していることがわかった。
論文 参考訳(メタデータ) (2021-08-05T15:10:00Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。