Fugu-MT 論文翻訳(概要): Towards Cross-device and Training-free Robotic Grasping in 3D Open World

論文の概要: Towards Cross-device and Training-free Robotic Grasping in 3D Open World

arxiv url: http://arxiv.org/abs/2411.18133v1
Date: Wed, 27 Nov 2024 08:23:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.572465
Title: Towards Cross-device and Training-free Robotic Grasping in 3D Open World
Title（参考訳）: 3次元オープンワールドにおけるクロスデバイス・非トレーニング型ロボットグラスピングを目指して
Authors: Weiguang Zhao, Chenru Jiang, Chengrui Zhang, Jie Sun, Yuyao Yan, Rui Zhang, Kaizhu Huang,
Abstract要約: 本稿では,オープンワールドシナリオにおいて,学習を必要とせずにオブジェクト把握タスクを実行できる新しいパイプラインを提案する。本稿では,セグメンテーション精度を向上し,未確認オブジェクトをクラスタ化およびローカライズする機能を有する,学習不要なバイナリクラスタリングアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 20.406334587479623
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Robotic grasping in the open world is a critical component of manufacturing and automation processes. While numerous existing approaches depend on 2D segmentation output to facilitate the grasping procedure, accurately determining depth from 2D imagery remains a challenge, often leading to limited performance in complex stacking scenarios. In contrast, techniques utilizing 3D point cloud data inherently capture depth information, thus enabling adeptly navigating and manipulating a diverse range of complex stacking scenes. However, such efforts are considerably hindered by the variance in data capture devices and the unstructured nature of the data, which limits their generalizability. Consequently, much research is narrowly concentrated on managing designated objects within specific settings, which confines their real-world applicability. This paper presents a novel pipeline capable of executing object grasping tasks in open-world scenarios even on previously unseen objects without the necessity for training. Additionally, our pipeline supports the flexible use of different 3D point cloud segmentation models across a variety of scenes. Leveraging the segmentation results, we propose to engage a training-free binary clustering algorithm that not only improves segmentation precision but also possesses the capability to cluster and localize unseen objects for executing grasping operations. In our experiments, we investigate a range of open-world scenarios, and the outcomes underscore the remarkable robustness and generalizability of our pipeline, consistent across various environments, robots, cameras, and objects. The code will be made available upon acceptance of the paper.
Abstract（参考訳）: オープンな世界でのロボットの把握は、製造と自動化プロセスの重要なコンポーネントである。既存の多くのアプローチは、把握手順を容易にするために2Dセグメンテーション出力に依存しているが、2D画像からの深度を正確に決定することは依然として困難であり、複雑な積み重ねシナリオでは性能が制限されることが多い。対照的に、3Dポイントクラウドデータを利用する技術は、本質的に深度情報をキャプチャし、多様な複雑な積み重ねシーンを巧みにナビゲートし操作することができる。しかし、このような取り組みは、データキャプチャ装置のばらつきと、その一般化性を制限するデータの非構造的性質により、かなり妨げられている。したがって、多くの研究は特定の設定内で指定されたオブジェクトを管理することに集中しており、実際の適用性は制限されている。本稿では、未確認のオブジェクトであっても、オープンワールドシナリオでオブジェクト把握タスクを実行することができる新しいパイプラインを提案する。さらに、パイプラインは様々な場面で異なる3Dポイントクラウドセグメンテーションモデルの柔軟な利用をサポートする。セグメンテーション結果を活用することにより、セグメンテーション精度を向上するだけでなく、セグメンテーション操作を実行する未確認オブジェクトをクラスタ化およびローカライズする能力を有する、トレーニング不要なバイナリクラスタリングアルゴリズムを提案する。実験では,様々な環境,ロボット,カメラ,オブジェクトにまたがる,パイプラインの顕著な堅牢性と一般化性について検討した。コードは、論文の受理時に利用可能になる。

関連論文リスト

FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文参考訳（メタデータ） (2025-03-10T23:13:35Z)
Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文参考訳（メタデータ） (2024-12-06T16:12:38Z)
Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking [73.05477052645885]
オープンな語彙的3Dトラッキングを導入し、3Dトラッキングの範囲を広げて、定義済みのカテゴリを超えてオブジェクトを含める。本稿では,オープン語彙機能を3次元トラッキングフレームワークに統合し,オブジェクトクラスが見えないように一般化する手法を提案する。
論文参考訳（メタデータ） (2024-10-02T15:48:42Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
Towards Confidence-guided Shape Completion for Robotic Applications [6.940242990198]
深層学習は、部分的な視覚データから完全な3Dオブジェクト表現を推測する効果的な方法として牽引され始めている。本稿では,各再構成点に対する信頼度を示す暗黙の3次元表現に基づくオブジェクト形状完備化手法を提案する。再構成された形状と地上の真実を比較し,ロボットの把握パイプラインに形状完了アルゴリズムを配置することにより,我々のアプローチを実験的に検証する。
論文参考訳（メタデータ） (2022-09-09T13:48:24Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文参考訳（メタデータ） (2022-08-08T08:15:34Z)
Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文参考訳（メタデータ） (2022-07-22T22:48:33Z)
Efficient and Robust Training of Dense Object Nets for Multi-Object Robot Manipulation [8.321536457963655]
我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。本研究は,多目的データを用いた学習に重点を置いている。実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
論文参考訳（メタデータ） (2022-06-24T08:24:42Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
3D Annotation Of Arbitrary Objects In The Wild [0.0]
SLAM, 3D再構成, 3D-to-2D幾何に基づくデータアノテーションパイプラインを提案する。このパイプラインは、任意のオブジェクトのピクセル単位のアノテーションとともに、3Dおよび2Dバウンディングボックスを作成することができる。以上の結果から, セマンティックセグメンテーションと2次元バウンディングボックス検出において, 約90%のインターセクション・オーバー・ユニオン(IoU)が一致していることがわかった。
論文参考訳（メタデータ） (2021-09-15T09:00:56Z)
Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文参考訳（メタデータ） (2020-04-26T23:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。