Fugu-MT 論文翻訳(概要): End-to-End Dexterous Grasp Learning from Single-View Point Clouds via a Multi-Object Scene Dataset

論文の概要: End-to-End Dexterous Grasp Learning from Single-View Point Clouds via a Multi-Object Scene Dataset

arxiv url: http://arxiv.org/abs/2603.15410v1
Date: Mon, 16 Mar 2026 15:21:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:56.87435
Title: End-to-End Dexterous Grasp Learning from Single-View Point Clouds via a Multi-Object Scene Dataset
Title（参考訳）: 複数オブジェクトシーンデータセットによる単一視点点雲からの終端デクスタースグラフ学習
Authors: Tao Geng, Dapeng Yang, Ziwei Liu, Le Zhang, Le Qi, WangYang Li, Yi Ren, Shan Luo, Fenglei Ni,
Abstract要約: 現在の主流のグルーピングデータセットは、主に単一オブジェクトシナリオと事前に定義されたグルーピング構成に焦点を当てている。 DGS-Netは,多目的シーンにおける単一視点の雲から密集した把握構成を学習できる,エンドツーエンドの把握予測ネットワークである。私たちのデータセットは、307のオブジェクト、240のマルチオブジェクトシーン、350万以上の検証されたグリップで構成されています。
参考スコア（独自算出の注目度）: 36.127347599544514
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dexterous grasping in multi-object scene constitutes a fundamental challenge in robotic manipulation. Current mainstream grasping datasets predominantly focus on single-object scenarios and predefined grasp configurations, often neglecting environmental interference and the modeling of dexterous pre-grasp gesture, thereby limiting their generalizability in real-world applications. To address this, we propose DGS-Net, an end-to-end grasp prediction network capable of learning dense grasp configurations from single-view point clouds in multi-object scene. Furthermore, we propose a two-stage grasp data generation strategy that progresses from dense single-object grasp synthesis to dense scene-level grasp generation. Our dataset comprises 307 objects, 240 multi-object scenes, and over 350k validated grasps. By explicitly modeling grasp offsets and pre-grasp configurations, the dataset provides more robust and accurate supervision for dexterous grasp learning. Experimental results show that DGS-Net achieves grasp success rates of 88.63\% in simulation and 78.98\% on a real robotic platform, while exhibiting lower penetration with a mean penetration depth of 0.375 mm and penetration volume of 559.45 mm^3, outperforming existing methods and demonstrating strong effectiveness and generalization capability. Our dataset is available at https://github.com/4taotao8/DGS-Net.
Abstract（参考訳）: マルチオブジェクトシーンにおけるデクサラスグルーピングは、ロボット操作における基本的な課題である。現在の主流の把握データセットは、主に単一対象のシナリオと事前定義された把握構成に焦点を合わせ、しばしば環境干渉を無視し、厳密な事前のジェスチャーをモデル化することで、現実世界のアプリケーションにおけるそれらの一般化性を制限している。そこで本稿では,マルチオブジェクトシーンにおいて,単一視点の雲から密接な把握構成を学習可能な,エンドツーエンドの把握予測ネットワークであるDGS-Netを提案する。さらに,2段階のグリップデータ生成戦略を提案し,より密集した単一対象グリップ合成から密集したシーンレベルのグリップ生成へと進展する。私たちのデータセットは、307のオブジェクト、240のマルチオブジェクトシーン、350万以上の検証されたグリップで構成されています。データセットは、グリップオフセットとプレグレープ構成を明示的にモデル化することにより、厳密なグリップラーニング学習のためのより堅牢で正確な監視を提供する。実験の結果,DGS-Netは実ロボットプラットフォーム上での88.63\%,78.98\%の把握成功率を達成し,平均浸透深さ0.375mm,貫通体積59.45mm^3の低浸透率を示し,既存手法より優れ,高い有効性と一般化能力を示した。データセットはhttps://github.com/4taotao8/DGS-Net.comから入手可能です。

関連論文リスト

URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。 URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-11-02T13:45:51Z)
GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes [5.289647064481469]
GraspClutter6Dは、1,000の散らばったシーンと密集したアレンジメントを特徴とする、大規模な現実世界の把握データセットである。我々は,最先端のセグメンテーション,オブジェクトポーズ推定,把握検出手法のベンチマークを行い,乱雑な環境における課題に対する重要な洞察を提供する。トレーニングリソースとしてのデータセットの有効性を検証し、GraspClutter6Dでトレーニングされたネットワークの把握が、シミュレーションと実世界の実験の両方において、既存のデータセットでトレーニングされたネットワークよりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-04-09T13:15:46Z)
Advancing ALS Applications with Large-Scale Pre-training: Dataset Development and Downstream Assessment [6.606615641354963]
事前訓練と微調整のパラダイムは、衛星リモートセンシングの応用に革命をもたらした。大規模なALSポイントクラウドデータセットを構築し、下流アプリケーションへの影響を評価する。以上の結果から,事前学習したモデルは,ダウンストリームタスク全体において,スクラッチよりも有意に優れていた。
論文参考訳（メタデータ） (2025-01-09T09:21:09Z)
SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文参考訳（メタデータ） (2022-11-07T16:17:47Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文参考訳（メタデータ） (2021-10-11T04:21:46Z)
Deep Learning based Segmentation of Fish in Noisy Forward Looking MBES Images [1.5469452301122177]
セマンティックセグメンテーションのためのディープラーニング(DL)と畳み込みニューラルネットワーク(CNN)の最近の進歩に基づいて構築する。画像ソナーによって投影される全ての射程方位位置に対する魚・魚・魚の確率予測のためのエンドツーエンドのアプローチを実証する。我々は,本モデルが所望のパフォーマンスを証明し,意味的文脈の重要性を活用することを学習したことを示す。
論文参考訳（メタデータ） (2020-06-16T09:57:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。