論文の概要: Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination
- arxiv url: http://arxiv.org/abs/2412.14957v2
- Date: Mon, 10 Mar 2025 09:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:39:39.762388
- Title: Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination
- Title(参考訳): Imaginationによるロボット模倣学習を活用した構成世界モデル
- Authors: Leonardo Barcellona, Andrii Zadaianchuk, Davide Allegro, Samuele Papa, Stefano Ghidoni, Efstratios Gavves,
- Abstract要約: DreMaは、実世界の学習された明示的な表現とそのダイナミクスを使って、デジタル双生児を構築するための新しいアプローチである。
DreMaはタスク毎の1つの例から新しい物理タスクを学べることを示す。
- 参考スコア(独自算出の注目度): 25.62602420895531
- License:
- Abstract: A world model provides an agent with a representation of its environment, enabling it to predict the causal consequences of its actions. Current world models typically cannot directly and explicitly imitate the actual environment in front of a robot, often resulting in unrealistic behaviors and hallucinations that make them unsuitable for real-world robotics applications. To overcome those challenges, we propose to rethink robot world models as learnable digital twins. We introduce DreMa, a new approach for constructing digital twins automatically using learned explicit representations of the real world and its dynamics, bridging the gap between traditional digital twins and world models. DreMa replicates the observed world and its structure by integrating Gaussian Splatting and physics simulators, allowing robots to imagine novel configurations of objects and to predict the future consequences of robot actions thanks to its compositionality. We leverage this capability to generate new data for imitation learning by applying equivariant transformations to a small set of demonstrations. Our evaluations across various settings demonstrate significant improvements in accuracy and robustness by incrementing actions and object distributions, reducing the data needed to learn a policy and improving the generalization of the agents. As a highlight, we show that a real Franka Emika Panda robot, powered by DreMa's imagination, can successfully learn novel physical tasks from just a single example per task variation (one-shot policy learning). Our project page can be found in: https://dreamtomanipulate.github.io/.
- Abstract(参考訳): 世界モデルはエージェントに環境の表現を提供し、アクションの因果関係を予測できる。
現在の世界モデルは、通常、ロボットの前で実際の環境を直接的かつ明示的に模倣することはできない。
これらの課題を克服するために,ロボットの世界モデルを学習可能なデジタル双生児として再考することを提案する。
DreMaは,学習した実世界の明示的な表現とそのダイナミクスを利用して,デジタル双生児と世界モデルとのギャップを埋める,デジタル双生児を構築するための新しいアプローチである。
DreMaは、ガウススプレイティングと物理シミュレータを統合することで、観察された世界とその構造を再現し、ロボットがオブジェクトの新たな構成を想像し、その構成性によってロボットの動作の将来の結果を予測する。
我々はこの能力を利用して、小さなデモセットに同変変換を適用することで、模倣学習のための新しいデータを生成する。
動作量や対象分布の増大による精度とロバスト性の向上,政策学習に必要なデータ削減,エージェントの一般化向上などにより,様々な環境における評価を行った。
DreMaの想像力を生かした本物のフランカ・エミカ・パンダロボットが、タスク毎の1つの例(一発のポリシー学習)から新しい物理タスクを学習できることを示す。
私たちのプロジェクトページは以下の通りです。
関連論文リスト
- Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。
Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。
これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal
Human Demonstrations [51.87067543670535]
本研究では,少数の人間によるデモンストレーションを行い,見えない物体のポーズを学習するロボット学習システムを提案する。
我々は,物体の点群を入力として捉え,物体を異なる初期ロボット状態から把握するための連続的な動作を予測する,厳密な把握ポリシーを訓練する。
我々のデータセットから学んだポリシーは、シミュレーションと現実世界の両方で見えないオブジェクトのポーズをうまく一般化することができる。
論文 参考訳(メタデータ) (2022-09-28T17:51:49Z) - RoboCraft: Learning to See, Simulate, and Shape Elasto-Plastic Objects
with Graph Networks [32.00371492516123]
弾塑性物体のモデリングと操作のためのモデルベース計画フレームワークを提案する。
我々のシステムであるRoboCraftは、グラフニューラルネットワーク(GNN)を用いて粒子ベースの力学モデルを学び、基礎となるシステムの構造を捉える。
実世界のロボットインタラクションデータの10分で、ロボットは制御信号を合成し、弾塑性の物体を様々な形状に変形させるダイナミックスモデルを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-05T20:28:15Z) - Factored World Models for Zero-Shot Generalization in Robotic
Manipulation [7.258229016768018]
我々は、オブジェクト指向世界モデルを用いてロボットピック・アンド・プレイス・タスクを一般化することを学ぶ。
グラフニューラルネットワークの残差スタックを使用して、ノードとエッジの両方のニューラルネットワークにおいて、複数のレベルのアクション情報を受信する。
モデルアンサンブルを用いて、最大12個のピック・アンド・プレイス・アクションを含むタスクを検索で計画できることが示される。
論文 参考訳(メタデータ) (2022-02-10T21:26:11Z) - Full-Body Visual Self-Modeling of Robot Morphologies [29.76701883250049]
身体の内部計算モデルは、ロボットや動物が行動の計画と制御を行う能力の基礎である。
完全データ駆動型自己モデリングの最近の進歩により、マシンはタスク非依存の相互作用データから直接フォワードキネマティクスを学習できるようになった。
ここでは、フォワードキネマティクスを直接モデル化するのではなく、空間占有クエリに答えることのできる、より有用な自己モデリング形式を提案する。
論文 参考訳(メタデータ) (2021-11-11T18:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。