論文の概要: A Training-Free Framework for Precise Mobile Manipulation of Small Everyday Objects
- arxiv url: http://arxiv.org/abs/2502.13964v1
- Date: Wed, 19 Feb 2025 18:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:58.787824
- Title: A Training-Free Framework for Precise Mobile Manipulation of Small Everyday Objects
- Title(参考訳): 小さな日常物体の正確な移動操作のための学習自由フレームワーク
- Authors: Arjun Gupta, Rishik Sathua, Saurabh Gupta,
- Abstract要約: 我々は,小型物体の操作を伴う精密な作業にモバイルマニピュレータが取り組むことができるクローズドループトレーニングフリーフレームワークを開発した。
SVMはRGB-D手首カメラを使用し、制御にビジュアルサーボを使用する。
オープンボキャブラリオブジェクト検出器は,セマンティックターゲットを識別するためのドロップインモジュールとして機能することを示す。
- 参考スコア(独自算出の注目度): 16.018172627950857
- License:
- Abstract: Many everyday mobile manipulation tasks require precise interaction with small objects, such as grasping a knob to open a cabinet or pressing a light switch. In this paper, we develop Servoing with Vision Models (SVM), a closed-loop training-free framework that enables a mobile manipulator to tackle such precise tasks involving the manipulation of small objects. SVM employs an RGB-D wrist camera and uses visual servoing for control. Our novelty lies in the use of state-of-the-art vision models to reliably compute 3D targets from the wrist image for diverse tasks and under occlusion due to the end-effector. To mitigate occlusion artifacts, we employ vision models to out-paint the end-effector thereby significantly enhancing target localization. We demonstrate that aided by out-painting methods, open-vocabulary object detectors can serve as a drop-in module to identify semantic targets (e.g. knobs) and point tracking methods can reliably track interaction sites indicated by user clicks. This training-free method obtains an 85% zero-shot success rate on manipulating unseen objects in novel environments in the real world, outperforming an open-loop control method and an imitation learning baseline trained on 1000+ demonstrations by an absolute success rate of 50%.
- Abstract(参考訳): 多くの日常的なモバイル操作タスクは、キャビネットを開くためにノブをつかむ、ライトスイッチを押すなど、小さなオブジェクトとの正確なインタラクションを必要とする。
本稿では,移動マニピュレータが小型物体の操作を含む正確なタスクに対処できるクローズドループトレーニングフリーフレームワークであるServoing with Vision Models(SVM)を開発する。
SVMはRGB-D手首カメラを使用し、制御にビジュアルサーボを使用する。
我々の斬新さは、手首の画像から3Dターゲットを確実に計算するために最先端の視覚モデルを使用することにある。
閉塞アーティファクトを緩和するため,我々は視覚モデルを用いてエンドエフェクタを外挿し,ターゲットの局所化を著しく向上する。
アウトペイント法により、オープン語彙オブジェクト検出器は、セマンティックターゲット(例えばノブ)を識別するためのドロップインモジュールとして機能し、ポイントトラッキング手法は、ユーザクリックによって示されるインタラクションサイトを確実に追跡できることを示す。
オープンループ制御法と、1000以上の実験で訓練された模擬学習ベースラインを絶対成功率50%で上回り、実世界の新規環境における未確認物体の操作において、85%のゼロショット成功率を得る。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - Click to Grasp: Zero-Shot Precise Manipulation via Visual Diffusion Descriptors [30.579707929061026]
本研究は,ゼロショット設定における精密操作のための微細部分記述子の接地について検討する。
我々は、それを密接な意味部分対応タスクとしてフレーミングすることで、この問題に対処する。
我々のモデルは、同じオブジェクトの視覚的に異なるインスタンスのソースイメージからユーザ定義クリックを参照して、特定の部分を操作するためのグリップパポーズを返します。
論文 参考訳(メタデータ) (2024-03-21T16:26:19Z) - Modular Neural Network Policies for Learning In-Flight Object Catching
with a Robot Hand-Arm System [55.94648383147838]
本稿では,ロボットハンドアームシステムによる飛行物体の捕獲方法の学習を可能にするモジュラーフレームワークを提案する。
本フレームワークは,物体の軌跡予測を学習するオブジェクト状態推定器,(ii)捕捉対象のポーズのスコアとランク付けを学ぶキャッチポーズ品質ネットワーク,(iii)ロボットハンドをキャッチ前ポーズに移動させるように訓練されたリーチ制御ポリシ,(iv)ソフトキャッチ動作を行うように訓練された把握制御ポリシの5つのコアモジュールから構成される。
各モジュールと統合システムのシミュレーションにおいて、我々のフレームワークを広範囲に評価し、飛行における高い成功率を示す。
論文 参考訳(メタデータ) (2023-12-21T16:20:12Z) - One-shot Imitation Learning via Interaction Warping [32.5466340846254]
本稿では,1つの実演からSE(3)ロボット操作ポリシーを学習するためのインタラクションウォーピング法を提案する。
我々は、オブジェクトインスタンス間で点雲を整列させる技術である形状ワープを用いて、環境中の各オブジェクトの3Dメッシュを推論する。
3つのシミュレーションおよび実世界のオブジェクト再配置タスクで1ショットの模倣学習を成功させる。
論文 参考訳(メタデータ) (2023-06-21T17:26:11Z) - Decoupling Skill Learning from Robotic Control for Generalizable Object
Manipulation [35.34044822433743]
ロボット操作の最近の研究は、様々なタスクに取り組む可能性を示している。
これは関節制御のための高次元の作用空間によるものであると推測する。
本稿では,「何をすべきか」を「どうやるか」から「どうやるか」を学習するタスクを,別のアプローチで分離する。
ロボットキネマティック・コントロールは、作業空間のゴールに到達するために高次元の関節運動を実行するように最適化されている。
論文 参考訳(メタデータ) (2023-03-07T16:31:13Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Task-Focused Few-Shot Object Detection for Robot Manipulation [1.8275108630751844]
本研究では,検出のみに基づく操作手法を開発し,タスク中心の少数ショット検出を導入し,新しいオブジェクトや設定を学習する。
数ショット学習へのインタラクティブなアプローチの実験では、ロボットに検出からオブジェクトを直接操作するように訓練する(ClickBot)。
論文 参考訳(メタデータ) (2022-01-28T21:52:05Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。