論文の概要: Affordance Learning from Play for Sample-Efficient Policy Learning
- arxiv url: http://arxiv.org/abs/2203.00352v1
- Date: Tue, 1 Mar 2022 11:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 12:59:24.623006
- Title: Affordance Learning from Play for Sample-Efficient Policy Learning
- Title(参考訳): サンプル効率のよい政策学習のための遊びからの余裕学習
- Authors: Jessica Borja-Diaz, Oier Mees, Gabriel Kalweit, Lukas Hermann, Joschka
Boedecker, Wolfram Burgard
- Abstract要約: 遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。
モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。
我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
- 参考スコア(独自算出の注目度): 30.701546777177555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots operating in human-centered environments should have the ability to
understand how objects function: what can be done with each object, where this
interaction may occur, and how the object is used to achieve a goal. To this
end, we propose a novel approach that extracts a self-supervised visual
affordance model from human teleoperated play data and leverages it to enable
efficient policy learning and motion planning. We combine model-based planning
with model-free deep reinforcement learning (RL) to learn policies that favor
the same object regions favored by people, while requiring minimal robot
interactions with the environment. We evaluate our algorithm, Visual
Affordance-guided Policy Optimization (VAPO), with both diverse simulation
manipulation tasks and real world robot tidy-up experiments to demonstrate the
effectiveness of our affordance-guided policies. We find that our policies
train 4x faster than the baselines and generalize better to novel objects
because our visual affordance model can anticipate their affordance regions.
- Abstract(参考訳): 人間中心の環境で動作するロボットは、オブジェクトがどのように機能するかを理解する能力を持つべきである。
そこで本研究では,人間の遠隔操作型プレイデータから自己監督型視覚アプライアンスモデルを抽出し,それを利用して効率的なポリシー学習と行動計画を実現する手法を提案する。
モデルベース計画とモデルフリー深層強化学習(rl)を組み合わせることで,人間に好まれる同じ対象領域を好むポリシを学習し,環境とのロボットインタラクションを最小限に抑える。
提案手法であるvapo(visual affordance-guided policy optimization)を多種多様なシミュレーション操作タスクと実世界のロボットティディアップ実験を用いて評価し,提案手法の有効性を実証した。
当社のポリシはベースラインよりも4倍高速にトレーニングされ,新たなオブジェクトへの汎用性が向上しています。
関連論文リスト
- Learning Goal-oriented Bimanual Dough Rolling Using Dynamic Heterogeneous Graph Based on Human Demonstration [19.74767906744719]
ソフトオブジェクト操作はロボットにとって重要な課題であり、状態表現と操作ポリシー学習に効果的な技術を必要とする。
本研究では,目標指向のソフトオブジェクト操作ポリシーを学習するための動的ヘテロジニアスグラフベースモデルを提案する。
論文 参考訳(メタデータ) (2024-10-15T16:12:00Z) - Learning active tactile perception through belief-space control [21.708391958446274]
本稿では,創造的世界モデルを開発することにより,触覚探索政策を自律的に学習する手法を提案する。
本手法は,目的が所望のオブジェクト特性を推定することである3つのシミュレーションタスクに対して評価する。
提案手法は, 所望のプロパティに関する情報を直感的に収集するポリシーを発見できることがわかった。
論文 参考訳(メタデータ) (2023-11-30T21:54:42Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Efficient Robotic Object Search via HIEM: Hierarchical Policy Learning
with Intrinsic-Extrinsic Modeling [33.89793938441333]
本稿では,本質的・非本質的な報酬設定を伴う階層的・解釈可能なモデリングに基づく,オブジェクト探索タスクのための新しいポリシー学習パラダイムを提案する。
House3D環境下で行った実験は、我々のモデルで訓練されたロボットが、より最適かつ解釈可能な方法で物体探索タスクを実行できることを示す。
論文 参考訳(メタデータ) (2020-10-16T19:21:38Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。