論文の概要: Sample Efficient Robot Learning with Structured World Models
- arxiv url: http://arxiv.org/abs/2210.12278v1
- Date: Fri, 21 Oct 2022 22:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:41:27.073594
- Title: Sample Efficient Robot Learning with Structured World Models
- Title(参考訳): 構造化世界モデルを用いたサンプル能率ロボット学習
- Authors: Tuluhan Akbulut, Max Merlin, Shane Parr, Benedict Quartey, Skye
Thompson
- Abstract要約: ゲーム環境では、世界モデルの使用は、優れた性能を保ちながら、サンプル効率を向上させることが示されている。
本稿では,RGB画像観察と,ロボットのスキル学習における共通アプローチである内蔵構造を利用した特徴空間を比較し,タスク性能と学習効率への影響を世界モデルと無関係に比較する。
- 参考スコア(独自算出の注目度): 3.1761323820497656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has been demonstrated as a flexible and effective
approach for learning a range of continuous control tasks, such as those used
by robots to manipulate objects in their environment. But in robotics
particularly, real-world rollouts are costly, and sample efficiency can be a
major limiting factor when learning a new skill. In game environments, the use
of world models has been shown to improve sample efficiency while still
achieving good performance, especially when images or other rich observations
are provided. In this project, we explore the use of a world model in a
deformable robotic manipulation task, evaluating its effect on sample
efficiency when learning to fold a cloth in simulation. We compare the use of
RGB image observation with a feature space leveraging built-in structure
(keypoints representing the cloth configuration), a common approach in robot
skill learning, and compare the impact on task performance and learning
efficiency with and without the world model. Our experiments showed that the
usage of keypoints increased the performance of the best model on the task by
50%, and in general, the use of a learned or constructed reduced feature space
improved task performance and sample efficiency. The use of a state transition
predictor(MDN-RNN) in our world models did not have a notable effect on task
performance.
- Abstract(参考訳): 強化学習は、ロボットが環境内の物体を操作するために使用するものなど、さまざまな連続制御タスクを学習するための柔軟で効果的なアプローチとして証明されている。
しかしロボット工学では、実際のロールアウトはコストがかかり、新しいスキルを学ぶ際にはサンプルの効率が大きな制限要因となる。
ゲーム環境では、特に画像やその他のリッチな観察が提供される場合、サンプリング効率を向上しつつ、優れた性能を保ちながら世界モデルの利用が示されている。
本稿では, 変形可能なロボット操作作業における世界モデルの利用について検討し, シミュレーションで布を折り畳むことを学ぶ際の試料効率への影響を評価する。
我々は,RGB画像観察と,組込み構造(布の構成を表すキーポイント)を利用した特徴空間,ロボット技術学習における共通アプローチを比較し,タスク性能と学習効率に及ぼす世界モデルの有無の影響を比較した。
実験の結果、キーポイントの使用によりタスク上での最良のモデルの性能が50%向上し、一般に学習あるいは構築された機能空間の使用によりタスク性能とサンプル効率が向上した。
我々の世界モデルにおける状態遷移予測器(MDN-RNN)の使用はタスク性能に顕著な影響を与えなかった。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - TWIST: Teacher-Student World Model Distillation for Efficient
Sim-to-Real Transfer [23.12048336150798]
本稿では,TWIST(Teacher-Student World Model Distillation for Sim-to-Real Transfer)を提案する。
具体的には、TWISTは状態観察をシミュレータから取得した特権情報として利用し、シミュレート・トゥ・リアル転送を著しく高速化する。
論文 参考訳(メタデータ) (2023-11-07T00:18:07Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Dynamic-Resolution Model Learning for Object Pile Manipulation [33.05246884209322]
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。
具体的には、環境の動的分解能粒子表現を構築し、グラフニューラルネットワーク(GNN)を用いた統一力学モデルを学ぶ。
本手法は, 粒状オブジェクトの収集, ソート, 再分配において, 最先端の固定解像度ベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-29T05:51:44Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。