論文の概要: Opening Articulated Objects in the Real World
- arxiv url: http://arxiv.org/abs/2402.17767v2
- Date: Thu, 13 Feb 2025 18:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 20:05:34.812666
- Title: Opening Articulated Objects in the Real World
- Title(参考訳): 実世界におけるオープニング・アーティキュレーテッド・オブジェクト
- Authors: Arjun Gupta, Michelle Zhang, Rishik Sathua, Saurabh Gupta,
- Abstract要約: この作業では、モバイル操作テストベッドとして、オープニングされたオブジェクトを使用する。
まず、このタスクのためのシステムを開発し、その後、13の現実世界のテストサイトで100以上のエンドツーエンドのシステムテストを実施します。
私たちの大規模な研究では、いくつかの驚くべき発見が明らかになりました。
- 参考スコア(独自算出の注目度): 14.662907097496184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What does it take to build mobile manipulation systems that can competently operate on previously unseen objects in previously unseen environments? This work answers this question using opening of articulated objects as a mobile manipulation testbed. Specifically, our focus is on the end-to-end performance on this task without any privileged information, i.e. the robot starts at a location with the novel target articulated object in view, and has to approach the object and successfully open it. We first develop a system for this task, and then conduct 100+ end-to-end system tests across 13 real world test sites. Our large-scale study reveals a number of surprising findings: a) modular systems outperform end-to-end learned systems for this task, even when the end-to-end learned systems are trained on 1000+ demonstrations, b) perception, and not precise end-effector control, is the primary bottleneck to task success, and c) state-of-the-art articulation parameter estimation models developed in isolation struggle when faced with robot-centric viewpoints. Overall, our findings highlight the limitations of developing components of the pipeline in isolation and underscore the need for system-level research, providing a pragmatic roadmap for building generalizable mobile manipulation systems. Videos, code, and models are available on the project website: https://arjung128.github.io/opening-articulated-objects/
- Abstract(参考訳): 未確認の環境で、これまで見えなかったオブジェクトを巧みに操作できるモバイル操作システムを構築するには、何が必要でしょうか?
この作業は、モバイル操作テストベッドとして、オープニングされたオブジェクトを使用して、この問題に答える。
具体的には,ロボットは,対象物が目に見える場所から開始し,対象物に近づき,その操作を成功させるという,特権的な情報のないエンドツーエンドのパフォーマンスに重点を置いている。
まず、このタスクのためのシステムを開発し、その後、13の現実世界のテストサイトで100以上のエンドツーエンドのシステムテストを実施します。
私たちの大規模な研究は、驚くべき発見をいくつも示しています。
a) モジュールシステムは、1000以上の実演でエンドツーエンドの学習システムを訓練しても、このタスクのためにエンド・ツー・エンドの学習システムを上回ります。
ロ タスク成功の第一のボトルネックは、正確なエンドエフェクタ制御ではなく、知覚である。
c)ロボット中心の視点に直面すると、孤立闘争の中で発達した最先端の調音パラメータ推定モデル。
全体として、我々はパイプラインのコンポーネントを分離して開発することの限界を強調し、システムレベルの研究の必要性を強調し、一般化可能なモバイル操作システムを構築するための実用的なロードマップを提供する。
https://arjung128.github.io/opening-articulated-objects/
関連論文リスト
- Interacted Object Grounding in Spatio-Temporal Human-Object Interactions [70.8859442754261]
我々は、新しいオープンワールドベンチマーク: Grounding Interacted Objects (GIO)を導入する。
オブジェクトの接地作業は視覚システムが相互作用するオブジェクトを発見することを期待するものである。
多様なビデオから対話オブジェクトを検出するための4D質問応答フレームワーク(4D-QA)を提案する。
論文 参考訳(メタデータ) (2024-12-27T09:08:46Z) - QuadWBG: Generalizable Quadrupedal Whole-Body Grasping [7.802964645500815]
アームマウントカメラを用いたロコマニピュレーション・コントローラの高機能化のためのモジュラー・フレームワークを提案する。
提案システムは実世界の89%の最先端のワンタイム把握精度を実現する。
論文 参考訳(メタデータ) (2024-11-11T08:19:54Z) - Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models [63.89598561397856]
室内環境における四足歩行操作のためのシステムを提案する。
オブジェクト操作にはフロントマウントのグリップを使用しており、アジャイルスキルにエゴセントリックな深さを使ってシミュレーションでトレーニングされた低レベルのコントローラである。
実世界のデータ収集やトレーニングを行なわずに、2つの目に見えない環境でシステムを評価する。
論文 参考訳(メタデータ) (2024-09-30T20:58:38Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - World Models for General Surgical Grasping [7.884835348797252]
我々は,世界モデルに基づく深層強化学習フレームワーク"Grasp Anything for Surgery"(GAS)を提案する。
外科的把握のためのピクセルレベルのビジュモータポリシーを学習し,汎用性とロバスト性の両方を向上する。
また,グリップ対象物体がグリップから落下した後に,背景変動,目標乱れ,カメラポーズ変動,運動制御誤差,画像ノイズ,再彫刻を含む6つの条件に対して,大きなロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-28T08:11:12Z) - Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。
本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。
データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T19:32:39Z) - Floor extraction and door detection for visually impaired guidance [78.94595951597344]
未知の環境で障害物のない経路を見つけることは、視覚障害者や自律ロボットにとって大きなナビゲーション問題である。
コンピュータビジョンシステムに基づく新しいデバイスは、障害のある人が安全な環境で未知の環境でナビゲートすることの難しさを克服するのに役立つ。
本研究では,視覚障害者のためのナビゲーションシステムの構築につながるセンサとアルゴリズムの組み合わせを提案する。
論文 参考訳(メタデータ) (2024-01-30T14:38:43Z) - Adaptive Mobile Manipulation for Articulated Objects In the Open World [37.34288363863099]
リアルな調音オブジェクト操作に対処するために,オープンワールド移動操作システムを導入する。
このシステムは、BCの50%の事前トレーニングから、オンライン適応を使用して95%まで、成功率を高めることができる。
論文 参考訳(メタデータ) (2024-01-25T18:59:44Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal
Human Demonstrations [51.87067543670535]
本研究では,少数の人間によるデモンストレーションを行い,見えない物体のポーズを学習するロボット学習システムを提案する。
我々は,物体の点群を入力として捉え,物体を異なる初期ロボット状態から把握するための連続的な動作を予測する,厳密な把握ポリシーを訓練する。
我々のデータセットから学んだポリシーは、シミュレーションと現実世界の両方で見えないオブジェクトのポーズをうまく一般化することができる。
論文 参考訳(メタデータ) (2022-09-28T17:51:49Z) - Robot Active Neural Sensing and Planning in Unknown Cluttered
Environments [0.0]
未知の乱雑な環境でのアクティブなセンシングと計画は、ホームサービス、探索と救助、狭い通行検査、医療支援を提供するロボットにとって、オープンな課題である。
本研究は,ロボットマニピュレータの動力学的に実現可能な視点列を手動カメラで生成し,基礎環境の再構築に必要な観測回数を最小化するための能動型ニューラルセンシング手法を提案する。
我々のフレームワークは視覚的RGBD観測を積極的に収集し、それらをシーン表現に集約し、環境との不要なロボットの相互作用を避けるためにオブジェクト形状推論を行う。
論文 参考訳(メタデータ) (2022-08-23T16:56:54Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - Reactive Human-to-Robot Handovers of Arbitrary Objects [57.845894608577495]
本稿では、未知の物体の人間とロボットのハンドオーバを可能にするビジョンベースシステムを提案する。
提案手法は,クローズドループ運動計画とリアルタイムかつ時間的に一貫性のあるグリップ生成を組み合わせたものである。
提案手法の汎用性,ユーザビリティ,ロバスト性を,26種類の家庭用オブジェクトからなる新しいベンチマークで実証した。
論文 参考訳(メタデータ) (2020-11-17T21:52:22Z) - A Long Horizon Planning Framework for Manipulating Rigid Pointcloud
Objects [25.428781562909606]
本稿では,剛体物体の操作に伴う長期計画問題の解決のための枠組みを提案する。
提案手法はオブジェクトサブゴールの空間における計画であり,ロボットとオブジェクトの相互作用のダイナミクスに関する推論からプランナーを解放する。
論文 参考訳(メタデータ) (2020-11-16T18:59:33Z) - Learning Object-Based State Estimators for Household Robots [11.055133590909097]
我々は高次元観測と仮説に基づいてオブジェクトベースのメモリシステムを構築する。
シミュレーション環境と実画像の両方において動的に変化するオブジェクトの記憶を維持するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2020-11-06T04:18:52Z) - Distributed Reinforcement Learning of Targeted Grasping with Active
Vision for Mobile Manipulators [4.317864702902075]
移動体マニピュレータのための最初のRLベースのシステムを提案する。これは、(a)対象対象物に対する目標把握の一般化を実現し、(b)隠蔽対象物による乱れたシーンの複雑な把握戦略を学習し、(c)可動式手首カメラでアクティブなビジョンを実行し、オブジェクトの発見をより良くする。
シミュレーション環境でシステムのトレーニングと評価を行い,性能向上,動作解析,実環境への移動といった重要なコンポーネントを特定した。
論文 参考訳(メタデータ) (2020-07-16T02:47:48Z) - The Ingredients of Real-World Robotic Reinforcement Learning [71.92831985295163]
実世界で収集されたデータによって継続的に自律的に改善できるロボット学習システムに必要な要素について論じる。
本稿では,このようなシステムの特異なインスタンス化を事例として,デクスタラスな操作を事例として提案する。
我々は人間の介入なしに学習できることを実証し、現実世界の3本指の手で様々な視覚ベースのスキルを習得する。
論文 参考訳(メタデータ) (2020-04-27T03:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。