論文の概要: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
- arxiv url: http://arxiv.org/abs/2508.17466v1
- Date: Sun, 24 Aug 2025 17:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.539912
- Title: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
- Title(参考訳): 足ロボットにおけるグラスピングの最適化:ロコマニピュレーションの深層学習アプローチ
- Authors: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker,
- Abstract要約: 本稿では,腕を備えた四足歩行の把握能力を高めるために,深層学習フレームワークを提案する。
我々はジェネシスシミュレーション環境内にパイプラインを構築し、共通物体の把握の試みの合成データセットを生成する。
このデータセットは、オンボードのRGBとディープカメラからのマルチモーダル入力を処理するU-Netのようなアーキテクチャで、カスタムCNNのトレーニングに使用された。
- 参考スコア(独自算出の注目度): 0.6533458718563319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quadruped robots have emerged as highly efficient and versatile platforms, excelling in navigating complex and unstructured terrains where traditional wheeled robots might fail. Equipping these robots with manipulator arms unlocks the advanced capability of loco-manipulation to perform complex physical interaction tasks in areas ranging from industrial automation to search-and-rescue missions. However, achieving precise and adaptable grasping in such dynamic scenarios remains a significant challenge, often hindered by the need for extensive real-world calibration and pre-programmed grasp configurations. This paper introduces a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, focusing on improved precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.
- Abstract(参考訳): 四輪ロボットは、より効率的で多用途なプラットフォームとして登場し、従来の車輪付きロボットが失敗する複雑な非構造地形をナビゲートすることに長けている。
これらのロボットにマニピュレータアームを装着することで、産業の自動化から救助活動まで、複雑な物理的相互作用を行うロボマニピュレーションの高度な能力を解き放つ。
しかし、このような動的シナリオにおいて正確かつ適応的な把握を実現することは大きな課題であり、多くの場合、広範囲の現実世界のキャリブレーションと事前にプログラムされた把握構成の必要性によって妨げられる。
本稿では,腕を装着した四足歩行の把握能力を向上し,精度と適応性の向上に焦点をあてた深層学習フレームワークを提案する。
我々のアプローチは、物理データ収集への依存を最小限に抑えるシム・ツー・リアルな方法論に重点を置いている。
我々は,ジェネシスシミュレーション環境内にパイプラインを構築し,共通物体の把握の試みを合成したデータセットを作成した。
様々な視点から何千もの相互作用をシミュレートすることで、我々はモデルの基礎的真理として機能する、ピクセルワイズアノテートなグリップクオリティマップを作成しました。
このデータセットは、オンボードのRGBと深度カメラからのマルチモーダル入力を処理するU-NetのようなアーキテクチャでカスタムCNNをトレーニングするために使用された。
訓練されたモデルは、最適な把握点を特定するために、グリップ品質のヒートマップを出力する。
四脚ロボットの完全な枠組みを検証した。
システムは,対象物に自律的にナビゲートし,センサーで認識し,モデルを用いて最適な把握ポーズを予測し,正確な把握を行うという,完全なロコ操作タスクを成功裏に実行した。
この研究は、高度なセンシングでシミュレートされたトレーニングを活用することで、オブジェクトハンドリングにスケーラブルで効果的なソリューションが提供されることを証明している。
関連論文リスト
- DeFM: Learning Foundation Representations from Depth for Robotics [49.77188649197404]
DeFMはロボットアプリケーションのための深度画像に基づいて訓練された自己教師型基礎モデルである。
DeFMは幾何学的および意味的な表現を学び、様々な環境、タスク、センサーに一般化する。
最先端の性能を達成し、シミュレーションから実環境への強力な一般化を実証する。
論文 参考訳(メタデータ) (2026-01-26T19:45:31Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - Computer vision training dataset generation for robotic environments using Gaussian splatting [0.0]
本稿では,ロボット環境におけるコンピュータビジョンタスクのための大規模かつ現実的で,自動的にラベル付けされたデータセットを生成するための新しいパイプラインを提案する。
我々は3Dガウススプラッティング(3DGS)を利用して、運用環境とオブジェクトの光リアル表現を作成する。
新たな2パスレンダリング技術は、スプレートのリアリズムと、プロキシメッシュから生成されたシャドウマップを組み合わせる。
画素完全セグメンテーションマスクは自動的に生成され、YOLOのようなオブジェクト検出モデルで直接使用するためにフォーマットされる。
論文 参考訳(メタデータ) (2025-12-15T15:00:17Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Estimating Object Physical Properties from RGB-D Vision and Depth Robot Sensors Using Deep Learning [2.07180164747172]
慣性質量は、物体の把握、操作、シミュレーションなどのロボット応用において重要な役割を果たす。
本稿では,深度画像とRGB画像との疎点クラウドデータを組み合わせて,物体の質量を推定する手法を提案する。
論文 参考訳(メタデータ) (2025-07-07T14:11:47Z) - Synthetic Dataset Generation for Autonomous Mobile Robots Using 3D Gaussian Splatting for Vision Training [0.708987965338602]
本論文では,Unreal Engineにおける注釈付き合成データの自動生成手法を提案する。
合成データセットが実世界のデータセットに匹敵する性能を達成できることを実証する。
これは、ロボットサッカーにおけるオブジェクト検出アルゴリズムのトレーニングのための合成データの最初の応用である。
論文 参考訳(メタデータ) (2025-06-05T14:37:40Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - 6-DoF Pose Estimation of Household Objects for Robotic Manipulation: An
Accessible Dataset and Benchmark [17.493403705281008]
本稿では,ロボット操作研究を中心に,既知の物体の6-DoFポーズ推定のための新しいデータセットを提案する。
我々は、おもちゃの食料品の3Dスキャンされたテクスチャモデルと、難解で散らかったシーンにおけるオブジェクトのRGBD画像を提供する。
半自動RGBD-to-modelテクスチャ対応を用いて、画像は数ミリ以内の精度で実証された地上の真実のポーズで注釈付けされる。
また,ADD-Hと呼ばれる新しいポーズ評価尺度を提案し,対象形状の対称性に頑健なハンガリー代入アルゴリズムについて,その明示的な列挙を必要とせず提案する。
論文 参考訳(メタデータ) (2022-03-11T01:19:04Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional,
and Incremental Robot Learning [41.19148076789516]
上記の4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。
本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。
そのロボットは、対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。
論文 参考訳(メタデータ) (2021-11-29T16:53:49Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。