論文の概要: Learning to Grasp Anything by Playing with Random Toys
- arxiv url: http://arxiv.org/abs/2510.12866v1
- Date: Tue, 14 Oct 2025 17:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.369117
- Title: Learning to Grasp Anything by Playing with Random Toys
- Title(参考訳): ランダムトイで遊べる学習
- Authors: Dantong Niu, Yuvan Sharma, Baifeng Shi, Rachel Ding, Matteo Gioia, Haoru Xue, Henry Tsai, Konstantinos Kallidromitis, Anirudh Pai, Shankar Shastry, Trevor Darrell, Jitendra Malik, Roei Herzig,
- Abstract要約: ロボットはランダムに組み立てられた物体を用いて、一般化可能な把握を学習できることを示す。
この一般化の鍵は、提案した検出プーリング機構によって誘導されるオブジェクト中心の視覚表現である。
この研究は、ロボット操作におけるスケーラブルで汎用的な学習への、有望な道のりを提供する、と私たちは信じています。
- 参考スコア(独自算出の注目度): 65.47078295823074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic manipulation policies often struggle to generalize to novel objects, limiting their real-world utility. In contrast, cognitive science suggests that children develop generalizable dexterous manipulation skills by mastering a small set of simple toys and then applying that knowledge to more complex items. Inspired by this, we study if similar generalization capabilities can also be achieved by robots. Our results indicate robots can learn generalizable grasping using randomly assembled objects that are composed from just four shape primitives: spheres, cuboids, cylinders, and rings. We show that training on these "toys" enables robust generalization to real-world objects, yielding strong zero-shot performance. Crucially, we find the key to this generalization is an object-centric visual representation induced by our proposed detection pooling mechanism. Evaluated in both simulation and on physical robots, our model achieves a 67% real-world grasping success rate on the YCB dataset, outperforming state-of-the-art approaches that rely on substantially more in-domain data. We further study how zero-shot generalization performance scales by varying the number and diversity of training toys and the demonstrations per toy. We believe this work offers a promising path to scalable and generalizable learning in robotic manipulation. Demonstration videos, code, checkpoints and our dataset are available on our project page: https://lego-grasp.github.io/ .
- Abstract(参考訳): ロボット操作ポリシーは、しばしば新しいオブジェクトへの一般化に苦慮し、現実の実用性を制限する。
対照的に認知科学は、子どもが単純なおもちゃの小さなセットをマスターし、その知識をより複雑なアイテムに適用することで、一般化可能な巧妙な操作スキルを発達させることを示唆している。
そこで本研究では,ロボットによる類似の一般化能力の実現について検討する。
ロボットは、球体、立方体、シリンダー、リングの4つの形状プリミティブからなるランダムに組み立てられた物体を用いて、一般化可能な把握を学習できることを示す。
これらの「トイ」のトレーニングにより、現実世界のオブジェクトへの堅牢な一般化が可能となり、ゼロショット性能が向上することを示す。
重要なことに、この一般化の鍵は、提案した検出プーリング機構によって誘導されるオブジェクト中心の視覚表現である。
シミュレーションと物理ロボットの両方で評価し,YCBデータセットにおける実世界の把握成功率の67%を達成し,ドメイン内データに大きく依存する最先端のアプローチよりも優れていた。
さらに,ゼロショット一般化性能が,トレーニング玩具の数や多様性や,玩具ごとのデモンストレーションによってどのようにスケールするかについて検討する。
この研究は、ロボット操作におけるスケーラブルで汎用的な学習への、有望な道のりを提供する、と私たちは信じています。
デモビデオ、コード、チェックポイント、および私たちのデータセットは、プロジェクトのページで利用可能です。
関連論文リスト
- Disentangled Object-Centric Image Representation for Robotic Manipulation [6.775909411692767]
本研究では,対象物,障害物,ロボットの体現物に対する不整合表現を導入したオブジェクト中心のフレームワークであるDOCIRを提案する。
提案手法は,多目的環境における視覚的インプットから選択と配置のスキルを習得する上で,最先端のパフォーマンスに繋がることを示す。
論文 参考訳(メタデータ) (2025-03-14T16:33:48Z) - Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination [25.62602420895531]
DreMaは、実世界の学習された明示的な表現とそのダイナミクスを使って、デジタル双生児を構築するための新しいアプローチである。
DreMaはタスク毎の1つの例から新しい物理タスクを学べることを示す。
論文 参考訳(メタデータ) (2024-12-19T15:38:15Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Learning Generalizable Dexterous Manipulation from Human Grasp
Affordance [11.060931225148936]
マルチフィンガーハンドによる有害な操作は、ロボット工学における最も難しい問題の1つだ。
模倣学習の最近の進歩は、強化学習と比較してサンプル効率を大幅に改善した。
本稿では,様々な3Dオブジェクトをカテゴリ内に配置した大規模実演を用いて,デクスタラスな操作を学習することを提案する。
論文 参考訳(メタデータ) (2022-04-05T16:26:22Z) - Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task
Learning [108.08083976908195]
既存の強化学習アルゴリズムで学習したポリシーは、実際は一般化可能であることを示す。
本稿では,100以上の幾何学的に異なる実世界のオブジェクトを,単一のジェネラリストポリシーで手動操作できることを示す。
興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、シングルオブジェクトのスペシャリストポリシーよりも優れています。
論文 参考訳(メタデータ) (2021-11-04T17:59:56Z) - Attribute-Based Robotic Grasping with One-Grasp Adaptation [9.255994599301712]
本稿では,属性に基づくロボットグリップのエンドツーエンド学習手法を提案する。
提案手法は,作業空間の画像とクエリテキストの埋め込みをゲートアテンション機構を用いて融合し,インスタンスの把握能力の予測を学習する。
シミュレーションと実世界での実験結果は、私たちのアプローチが80%以上のインスタンスで未知のオブジェクトの成功率を把握できることを示しています。
論文 参考訳(メタデータ) (2021-04-06T03:40:46Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。