論文の概要: Leveraging Fully Observable Policies for Learning under Partial
Observability
- arxiv url: http://arxiv.org/abs/2211.01991v1
- Date: Thu, 3 Nov 2022 16:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 14:29:15.538409
- Title: Leveraging Fully Observable Policies for Learning under Partial
Observability
- Title(参考訳): 部分的可観測性に基づく学習のための完全可観測ポリシーの活用
- Authors: Hai Nguyen, Andrea Baisero, Dian Wang, Christopher Amato, Robert Platt
- Abstract要約: オフライントレーニング中に完全に観測可能なポリシを用いてオンラインパフォーマンスを向上させる部分観測可能強化学習法を提案する。
当社のアプローチでは,部分的な可観測性の下で学びながら,完全な可観測性を持つ領域や領域の一部について,完全に可観測性を持つポリシを活用することが可能です。
画素からの操作タスクにおける物理ロボットへのポリシー伝達の成功は、部分的可観測性の下で興味深いポリシーを学習する際の我々のアプローチの実践性を示している。
- 参考スコア(独自算出の注目度): 14.918197552051929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning in partially observable domains is challenging due to
the lack of observable state information. Thankfully, learning offline in a
simulator with such state information is often possible. In particular, we
propose a method for partially observable reinforcement learning that uses a
fully observable policy (which we call a state expert) during offline training
to improve online performance. Based on Soft Actor-Critic (SAC), our agent
balances performing actions similar to the state expert and getting high
returns under partial observability. Our approach can leverage the
fully-observable policy for exploration and parts of the domain that are fully
observable while still being able to learn under partial observability. On six
robotics domains, our method outperforms pure imitation, pure reinforcement
learning, the sequential or parallel combination of both types, and a recent
state-of-the-art method in the same setting. A successful policy transfer to a
physical robot in a manipulation task from pixels shows our approach's
practicality in learning interesting policies under partial observability.
- Abstract(参考訳): 半可観測領域における強化学習は、可観測状態情報の欠如により困難である。
ありがたいことに、そのような状態情報を持つシミュレータでオフラインで学ぶことは、しばしば可能である。
特に,オフライントレーニング中に完全に観測可能なポリシ(状態エキスパートと呼ぶ)を使用して,オンラインパフォーマンスを改善する部分観測型強化学習手法を提案する。
エージェントは,Soft Actor-Critic (SAC)に基づいて,状態エキスパートと同じような動作のバランスをとり,部分観測可能性の下で高いリターンを得る。
当社のアプローチは、部分的可観測性の下で学べながら、完全な可観測性を持つ領域の探索と領域の一部に対して、完全な可観測性ポリシを活用することができます。
6つのロボティクス領域において,本手法は,純粋模倣,純粋強化学習,両タイプの逐次的あるいは並列結合,最新の最先端手法を同じ設定で上回っている。
画素からの操作タスクにおける物理ロボットへのポリシー伝達の成功は、部分的可観測性の下で興味深いポリシーを学習する際の我々のアプローチの実践性を示している。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems [97.12538243736705]
関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,POMDP,LQG,予測状態表現 (Predictive State Representations,PSR) などのモデルや,POMDPのHilbert Space Embeddingsや観測可能なPOMDPを遅延低ランク遷移で組み込むことのできる,汎用的な新しいテクスタイト(Partially Observar Bilinear Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T00:27:42Z) - Exploiting Action Impact Regularity and Exogenous State Variables for
Offline Reinforcement Learning [30.337391523928396]
我々は,オフライン強化学習の保証を得るために,制限されたMDPのクラスを探究する。
本稿では,Action Impact Regularity(AIR)特性を利用するアルゴリズムについて論じ,Fitted-Q Iterationに基づくアルゴリズムの理論解析を行う。
このアルゴリズムは,シミュレーションおよび実環境において,異なるデータ収集ポリシー間で,既存のオフライン強化学習アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-15T20:14:18Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。