論文の概要: A Rapid Deployment Pipeline for Autonomous Humanoid Grasping Based on Foundation Models
- arxiv url: http://arxiv.org/abs/2604.17258v1
- Date: Sun, 19 Apr 2026 04:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.422006
- Title: A Rapid Deployment Pipeline for Autonomous Humanoid Grasping Based on Foundation Models
- Title(参考訳): 基礎モデルに基づく自律型ヒューマノイドグラスピングのための高速展開パイプライン
- Authors: Yifei Yan, Yankai Liao, Linqi Ye,
- Abstract要約: 本稿では,3つの基盤モデルコンポーネントを統合したエンドツーエンドの迅速なデプロイメントパイプラインを提案する。
Roboflowベースの自動アノテーションは、YOLOv8オブジェクト検出器のトレーニングを支援する。
Meta SAM 3Dに基づく3D再構成により、専用のレーザースキャナが不要になる。
SAM3D生成メッシュを直接テンプレートとして使用して,FoundationPoseに基づいた0ショット6-DoFのポーズトラッキングを行う。
- 参考スコア(独自算出の注目度): 1.1412720572948085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying a humanoid robot to manipulate a new object has traditionally required one to two days of effort: data collection, manual annotation, 3D model acquisition, and model training. This paper presents an end-to-end rapid deployment pipeline that integrates three foundation-model components to shorten the onboarding cycle for a new object to approximately 30 minutes: (i) Roboflow-based automatic annotation to assist in training a YOLOv8 object detector; (ii) 3D reconstruction based on Meta SAM 3D, which eliminates the need for a dedicated laser scanner; and (iii) zero-shot 6-DoF pose tracking based on FoundationPose, using the SAM~3D-generated mesh directly as the template. The estimated pose drives a Unity-based inverse kinematics planner, whose joint commands are streamed via UDP to a Unitree~G1 humanoid and executed through the Unitree SDK. We demonstrate detection accuracy of mAP@0.5 = 0.995, pose tracking precision of $σ< 1.05$ mm, and successful grasping on a real robot at five positions within the workspace. We further verify the generality of the pipeline on an automobile-window glue-application task. The results show that combining foundation models for perception with everyday imaging devices (e.g., smartphones) can substantially lower the deployment barrier for humanoid manipulation tasks.
- Abstract(参考訳): 新しいオブジェクトを操作するためにヒューマノイドロボットを配置するには、データ収集、手動アノテーション、3Dモデル取得、モデルトレーニングといった1~2日間の作業が必要だった。
本稿では,3つの基盤モデルコンポーネントを統合して,新しいオブジェクトの起動サイクルを約30分短縮する,エンドツーエンドの迅速なデプロイメントパイプラインを提案する。
i) YOLOv8オブジェクト検出器のトレーニングを支援するRoboflowベースの自動アノテーション
二 専用のレーザースキャナーを不要とするメタSAM 3Dに基づく3次元再構成
(iii)FoundationPoseに基づいて,SAM~3D生成メッシュを直接テンプレートとして,ゼロショット6-DoFのポーズトラッキングを行う。
推定ポーズはUnityベースの逆キネマティクスプランナーを駆動し、そのジョイントコマンドはUDP経由でUnitree~G1ヒューマノイドにストリームされ、Unitree SDKを介して実行される。
我々は,mAP@0.5 = 0.995の検出精度,σ<1.05$mmの追跡精度,作業空間内の5つの位置で実ロボットをつかむことに成功した。
さらに,自動車と窓の接着剤適用タスクにおけるパイプラインの汎用性を検証する。
その結果,認識基盤モデルと日常の撮像装置(スマートフォンなど)を組み合わせることで,ヒューマノイド操作作業の展開障壁を大幅に低減できることがわかった。
関連論文リスト
- SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding [78.12178144115224]
ロボットファウンデーションモデル(RFMs)は、ロボット制御のための汎用的なエンドツーエンドシステムとして大きな可能性を秘めている。
本稿では,3次元アノテーションを用いた非ロボティックな画像データの統合と,3次元理解機能を備えた事前学習VLMの強化を提案する。
我々は,基礎となる3次元認識と言語による具体化制御を統合したロボット基礎モデルであるtextbfSPEAR-1$を紹介した。
論文 参考訳(メタデータ) (2025-11-21T17:09:43Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - DEYOv3: DETR with YOLO for Real-time Object Detection [0.0]
ステップ・バイ・ステップ・トレーニング(Step-by-step training)と呼ばれる新しいトレーニング手法を提案する。
第1段階では、一対多で事前訓練されたYOLO検出器を使用して、エンドツーエンド検出器を初期化する。
第2段階では、バックボーンとエンコーダはDETRのようなモデルと一致しているが、検出器のみをゼロから訓練する必要がある。
論文 参考訳(メタデータ) (2023-09-21T07:49:07Z) - Self-Supervised Object Goal Navigation with In-Situ Finetuning [110.6053241629366]
この研究は、探検を通じて世界の自己監督モデルを構築するエージェントを構築する。
ObjectNavエージェントのすべてのコンポーネントをトレーニングできる強力なセルフスーパービジョンのソースを特定します。
我々は,エージェントが実世界で競争力を発揮し,シミュレーションを行うことを示す。
論文 参考訳(メタデータ) (2022-12-09T03:41:40Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision [25.70995300410493]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Amodal 3D Reconstruction for Robotic Manipulation via Stability and
Connectivity [3.359622001455893]
学習に基づく3Dオブジェクト再構成により、3Dオブジェクトモデルの単一または少数ショット推定が可能となる。
既存の3D再構成技術は、通常、シャムファー距離またはボクセルIOUによって測定される視覚的再構成忠実度を最適化する。
本稿では,オブジェクト形状よりも先に安定性を導入するアモーダル3D再構成システムARMと,接続前の接続,マルチチャネル入力表現を提案する。
論文 参考訳(メタデータ) (2020-09-28T08:52:54Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - 3D Pose Detection in Videos: Focusing on Occlusion [0.4588028371034406]
我々は,映像中の隠蔽型3Dポーズ検出のための既存の手法を構築した。
我々は,2次元ポーズ予測を生成するために,積み重ねられた時間ガラスネットワークからなる2段階アーキテクチャを実装した。
閉鎖関節によるポーズの予測を容易にするため,シリンダーマンモデルの直感的な一般化を導入する。
論文 参考訳(メタデータ) (2020-06-24T07:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。