論文の概要: Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning
- arxiv url: http://arxiv.org/abs/2005.10872v2
- Date: Tue, 26 May 2020 16:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:20:24.627861
- Title: Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning
- Title(参考訳): 不確実性認識政策最適化の指導--学習戦略とモデルベース戦略を組み合わせたサンプル効率政策学習
- Authors: Michelle A. Lee, Carlos Florensa, Jonathan Tremblay, Nathan Ratliff,
Animesh Garg, Fabio Ramos, Dieter Fox
- Abstract要約: 従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
- 参考スコア(独自算出の注目度): 75.56839075060819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional robotic approaches rely on an accurate model of the environment,
a detailed description of how to perform the task, and a robust perception
system to keep track of the current state. On the other hand, reinforcement
learning approaches can operate directly from raw sensory inputs with only a
reward signal to describe the task, but are extremely sample-inefficient and
brittle. In this work, we combine the strengths of model-based methods with the
flexibility of learning-based methods to obtain a general method that is able
to overcome inaccuracies in the robotics perception/actuation pipeline, while
requiring minimal interactions with the environment. This is achieved by
leveraging uncertainty estimates to divide the space in regions where the given
model-based policy is reliable, and regions where it may have flaws or not be
well defined. In these uncertain regions, we show that a locally learned-policy
can be used directly with raw sensory inputs. We test our algorithm, Guided
Uncertainty-Aware Policy Optimization (GUAPO), on a real-world robot performing
peg insertion. Videos are available at https://sites.google.com/view/guapo-rl
- Abstract(参考訳): 従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、そして現在の状態を追跡するための堅牢な知覚システムに依存している。
一方で、強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作できるが、非常にサンプル非効率で不安定である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服し,環境との相互作用を最小限に抑えながら,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
これは、不確実性推定を活用して、与えられたモデルベースのポリシーが信頼できる領域と、それが正しく定義されていない可能性のある領域に空間を分割する。
これらの不確実な地域では、ローカルな学習政治が生の感覚入力で直接利用できることを示す。
我々は、実際のペグ挿入を行うロボット上で、GUAPO(Gread Uncertainty-Aware Policy Optimization)というアルゴリズムをテストする。
ビデオはhttps://sites.google.com/view/guapo-rlで閲覧できる。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Learning Robust Controllers Via Probabilistic Model-Based Policy Search [2.886634516775814]
このような方法で学習したコントローラが、環境の小さな摂動の下で頑健であり、一般化できるかどうかを考察する。
ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T11:17:31Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。