論文の概要: FetchBot: Object Fetching in Cluttered Shelves via Zero-Shot Sim2Real
- arxiv url: http://arxiv.org/abs/2502.17894v1
- Date: Tue, 25 Feb 2025 06:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:21:28.490291
- Title: FetchBot: Object Fetching in Cluttered Shelves via Zero-Shot Sim2Real
- Title(参考訳): FetchBot: Zero-Shot Sim2Realによるクラッタ棚内のオブジェクトのフェッチ
- Authors: Weiheng Liu, Yuxuan Wan, Jilong Wang, Yuxuan Kuang, Xuesong Shi, Haoran Li, Dongbin Zhao, Zhizheng Zhang, He Wang,
- Abstract要約: FetchBotは、現実世界の設定で散らかった棚からフェッチする、ゼロショットの一般化と安全を意識したオブジェクトを可能にするために設計されたフレームワークである。
データ不足に対処するために,多様な模擬棚のシーンを生成するための効率的なボクセルベース手法を提案する。
限られた視点の課題に対処するために,多視点表現を学習するための新しいアーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 22.899593664306717
- License:
- Abstract: Object fetching from cluttered shelves is an important capability for robots to assist humans in real-world scenarios. Achieving this task demands robotic behaviors that prioritize safety by minimizing disturbances to surrounding objects, an essential but highly challenging requirement due to restricted motion space, limited fields of view, and complex object dynamics. In this paper, we introduce FetchBot, a sim-to-real framework designed to enable zero-shot generalizable and safety-aware object fetching from cluttered shelves in real-world settings. To address data scarcity, we propose an efficient voxel-based method for generating diverse simulated cluttered shelf scenes at scale and train a dynamics-aware reinforcement learning (RL) policy to generate object fetching trajectories within these scenes. This RL policy, which leverages oracle information, is subsequently distilled into a vision-based policy for real-world deployment. Considering that sim-to-real discrepancies stem from texture variations mostly while from geometric dimensions rarely, we propose to adopt depth information estimated by full-fledged depth foundation models as the input for the vision-based policy to mitigate sim-to-real gap. To tackle the challenge of limited views, we design a novel architecture for learning multi-view representations, allowing for comprehensive encoding of cluttered shelf scenes. This enables FetchBot to effectively minimize collisions while fetching objects from varying positions and depths, ensuring robust and safety-aware operation. Both simulation and real-robot experiments demonstrate FetchBot's superior generalization ability, particularly in handling a broad range of real-world scenarios, includ
- Abstract(参考訳): 乱雑な棚から物を取り出すことは、ロボットが現実世界のシナリオで人間を助ける重要な能力である。
このタスクを達成するには、周囲の物体への乱れを最小限に抑えて安全性を優先するロボットの動作が必要である。
本稿では, 乱雑な棚から取り出すゼロショットの汎用性と安全性を意識したオブジェクトを, 現実世界の環境下で実現可能にするための, sim-to-realフレームワークであるFetchBotを紹介する。
データ不足に対処するため,多種多様な乱雑な棚のシーンを大規模に生成する効率的なボクセルベース手法を提案し,ダイナミックス対応強化学習(RL)ポリシーを訓練し,これらのシーン内でオブジェクトフェッチ・トラジェクトリを生成する。
オラクル情報を利用するこのRLポリシーは、その後、実世界の展開のためのビジョンベースのポリシーに蒸留される。
図形と現実の相違は主にテクスチャのばらつきから生じるが、幾何学的な次元はめったにないため、本研究では、図形と現実のギャップを緩和する視覚的ポリシーの入力として、本格的な深度基礎モデルから推定される深度情報を採用することを提案する。
限定ビューの課題に対処するため,多視点表現を学習するための新しいアーキテクチャを設計し,散らばった棚のシーンを包括的にエンコーディングする。
これにより、FetchBotは、さまざまな位置と深さからオブジェクトを取得しながら衝突を効果的に最小化し、堅牢で安全に配慮した操作を保証できる。
シミュレーションと実ロボット実験の両方は、FetchBotの優れた一般化能力、特に幅広い実世界のシナリオを扱う場合の証明である。
関連論文リスト
- Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。
RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。
我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T05:55:39Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Robot Active Neural Sensing and Planning in Unknown Cluttered
Environments [0.0]
未知の乱雑な環境でのアクティブなセンシングと計画は、ホームサービス、探索と救助、狭い通行検査、医療支援を提供するロボットにとって、オープンな課題である。
本研究は,ロボットマニピュレータの動力学的に実現可能な視点列を手動カメラで生成し,基礎環境の再構築に必要な観測回数を最小化するための能動型ニューラルセンシング手法を提案する。
我々のフレームワークは視覚的RGBD観測を積極的に収集し、それらをシーン表現に集約し、環境との不要なロボットの相互作用を避けるためにオブジェクト形状推論を行う。
論文 参考訳(メタデータ) (2022-08-23T16:56:54Z) - IFOR: Iterative Flow Minimization for Robotic Object Rearrangement [92.97142696891727]
IFOR(Iterative Flow Minimization for Robotic Object Rearrangement)は、未知物体の物体再構成問題に対するエンドツーエンドの手法である。
本手法は,合成データのみを訓練しながら,散在するシーンや実世界に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-01T20:03:56Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。