論文の概要: FetchBot: Learning Generalizable Object Fetching in Cluttered Scenes via Zero-Shot Sim2Real
- arxiv url: http://arxiv.org/abs/2502.17894v2
- Date: Sun, 24 Aug 2025 07:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.517913
- Title: FetchBot: Learning Generalizable Object Fetching in Cluttered Scenes via Zero-Shot Sim2Real
- Title(参考訳): FetchBot: Zero-Shot Sim2Realを通じて、クラッタ化されたシーンで一般化可能なオブジェクトのフェッチを学習する
- Authors: Weiheng Liu, Yuxuan Wan, Jilong Wang, Yuxuan Kuang, Wenbo Cui, Xuesong Shi, Haoran Li, Dongbin Zhao, Zhizheng Zhang, He Wang,
- Abstract要約: 乱雑なシーンでの一般化可能なオブジェクトフェッチは、AIを具現化する上で、基本的でアプリケーションクリティカルな課題である。
FetchBotは、この挑戦のためのsim-to-realフレームワークである。
平均的な実世界の成功率は89.95%であり、従来の手法よりも大幅に上回っている。
- 参考スコア(独自算出の注目度): 25.60751532514627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable object fetching in cluttered scenes remains a fundamental and application-critical challenge in embodied AI. Closely packed objects cause inevitable occlusions, making safe action generation particularly difficult. Under such partial observability, effective policies must not only generalize across diverse objects and layouts but also reason about occlusion to avoid collisions. However, collecting large-scale real-world data for this task remains prohibitively expensive, leaving this problem largely unsolved. In this paper, we introduce FetchBot, a sim-to-real framework for this challenge. We first curate a large-scale synthetic dataset featuring 1M diverse scenes and 500k representative demonstrations. Based on this dataset, FetchBot employs a depth-conditioned method for action generation, which leverages structural cues to enable robust obstacle-aware action planning. However, depth is perfect in simulation but noisy in real-world environments. To address this sim-to-real gap, FetchBot predicts depth from RGB inputs using a foundation model and integrates local occupancy prediction as a pre-training task, providing a generalizable latent representation for sim-to-real transfer. Extensive experiments in simulation and real-world environments demonstrate the strong zero-shot sim-to-real transfer, effective clutter handling, and adaptability to novel scenarios. In cluttered environments, it achieves an average real-world success rate of 89.95%, significantly outperforming prior methods. Moreover, FetchBot demonstrates excellent robustness in challenging cases, such as fetching transparent, reflective, and irregular objects, highlighting its practical value.
- Abstract(参考訳): 乱雑なシーンでの一般化可能なオブジェクトフェッチは、AIを具現化する上で、基本的でアプリケーションクリティカルな課題である。
密封された物体は避けられない閉塞を引き起こし、安全な行動生成を特に困難にしている。
このような部分的な可観測性の下では、効果的なポリシーは様々なオブジェクトやレイアウトをまたいで一般化するだけでなく、衝突を避けるために排除する理由も必要である。
しかし、このタスクのために大規模な実世界のデータを収集することは違法に高価であり、この問題は未解決のままである。
本稿では,この課題に対するシミュレート・トゥ・リアルなフレームワークであるFetchBotを紹介する。
まず,100万の多様なシーンと500万の代表的なデモを含む大規模合成データセットをキュレートする。
このデータセットに基づいて、FetchBotでは、構造的キューを活用して堅牢な障害対応アクション計画を可能にする、深度条件付きアクション生成手法を採用している。
しかし、深度はシミュレーションでは完璧だが、現実の環境ではうるさい。
このsim-to-realギャップに対処するため、FetchBotは基礎モデルを用いてRGB入力からの深さを予測し、局所占有率予測を事前学習タスクとして統合し、sim-to-real転送のための一般化可能な潜在表現を提供する。
シミュレーションと実世界の環境における大規模な実験は、強いゼロショット・シム・トゥ・リアル・トランスファー、効果的なクラッタハンドリング、そして新しいシナリオへの適応性を実証している。
乱雑な環境では、89.95%の平均的な実世界の成功率を達成する。
さらに、FetchBotは、透過的、反射的、不規則なオブジェクトをフェッチするなど、困難なケースで優れた堅牢性を示し、その実用的価値を強調している。
関連論文リスト
- Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。
RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。
我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T05:55:39Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Robot Active Neural Sensing and Planning in Unknown Cluttered
Environments [0.0]
未知の乱雑な環境でのアクティブなセンシングと計画は、ホームサービス、探索と救助、狭い通行検査、医療支援を提供するロボットにとって、オープンな課題である。
本研究は,ロボットマニピュレータの動力学的に実現可能な視点列を手動カメラで生成し,基礎環境の再構築に必要な観測回数を最小化するための能動型ニューラルセンシング手法を提案する。
我々のフレームワークは視覚的RGBD観測を積極的に収集し、それらをシーン表現に集約し、環境との不要なロボットの相互作用を避けるためにオブジェクト形状推論を行う。
論文 参考訳(メタデータ) (2022-08-23T16:56:54Z) - IFOR: Iterative Flow Minimization for Robotic Object Rearrangement [92.97142696891727]
IFOR(Iterative Flow Minimization for Robotic Object Rearrangement)は、未知物体の物体再構成問題に対するエンドツーエンドの手法である。
本手法は,合成データのみを訓練しながら,散在するシーンや実世界に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-01T20:03:56Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。