論文の概要: Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.09290v1
- Date: Wed, 14 Feb 2024 16:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:31:26.190485
- Title: Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning
- Title(参考訳): 部分教師付き強化学習による後向き観測可能なPOMDPの解釈可能性の学習
- Authors: Michael Lanier, Ying Xu, Nathan Jacobs, Chongjie Zhang, Yevgeniy
Vorobeychik
- Abstract要約: 本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 57.67629402360924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning has demonstrated remarkable achievements across
diverse domains such as video games, robotic control, autonomous driving, and
drug discovery. Common methodologies in partially-observable domains largely
lean on end-to-end learning from high-dimensional observations, such as images,
without explicitly reasoning about true state. We suggest an alternative
direction, introducing the Partially Supervised Reinforcement Learning (PSRL)
framework. At the heart of PSRL is the fusion of both supervised and
unsupervised learning. The approach leverages a state estimator to distill
supervised semantic state information from high-dimensional observations which
are often fully observable at training time. This yields more interpretable
policies that compose state predictions with control. In parallel, it captures
an unsupervised latent representation. These two-the semantic state and the
latent state-are then fused and utilized as inputs to a policy network. This
juxtaposition offers practitioners a flexible and dynamic spectrum: from
emphasizing supervised state information to integrating richer, latent
insights. Extensive experimental results indicate that by merging these dual
representations, PSRL offers a potent balance, enhancing model interpretability
while preserving, and often significantly outperforming, the performance
benchmarks set by traditional methods in terms of reward and convergence speed.
- Abstract(参考訳): 深層強化学習は、ビデオゲーム、ロボット制御、自律運転、薬物発見など、様々な領域で顕著な成果を発揮している。
部分観測可能な領域における一般的な手法は、画像のような高次元の観察からエンドツーエンドの学習に大きく依存する。
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークの導入という,新たな方向性を提案する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
このアプローチはstate estimatorを利用して、トレーニング時に完全に観測可能な高次元の観察から教師付きセマンティックステート情報を蒸留する。
これにより、制御された状態予測を構成するより解釈可能なポリシーが得られる。
並行して、教師なしの潜在表現をキャプチャする。
これら2つの意味状態と潜在状態は融合され、ポリシーネットワークへの入力として利用される。
この並進法は、教師付き状態情報を強調することから、よりリッチで潜伏的な洞察を統合することまで、実践者に柔軟でダイナミックなスペクトルを提供します。
広範な実験結果から、これらの双対表現をマージすることで、psrlは強力なバランスを提供し、モデル解釈性を高めながら、しばしば従来の方法による報酬と収束速度で設定されたパフォーマンスベンチマークを著しく上回っていることが示されている。
関連論文リスト
- iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。
我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。
iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-06-04T18:15:44Z) - Harnessing Discrete Representations For Continual Reinforcement Learning [8.61539229796467]
強化学習の文脈における分類的価値のベクトルとして観測を表現することの利点について検討する。
従来の連続表現と比較すると、離散表現よりも学習した世界モデルは、キャパシティの少ない世界のより正確なモデルであることが分かる。
論文 参考訳(メタデータ) (2023-12-02T18:55:26Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - Leveraging Fully Observable Policies for Learning under Partial
Observability [14.918197552051929]
オフライントレーニング中に完全に観測可能なポリシを用いてオンラインパフォーマンスを向上させる部分観測可能強化学習法を提案する。
当社のアプローチでは,部分的な可観測性の下で学びながら,完全な可観測性を持つ領域や領域の一部について,完全に可観測性を持つポリシを活用することが可能です。
画素からの操作タスクにおける物理ロボットへのポリシー伝達の成功は、部分的可観測性の下で興味深いポリシーを学習する際の我々のアプローチの実践性を示している。
論文 参考訳(メタデータ) (2022-11-03T16:57:45Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Towards Learning Controllable Representations of Physical Systems [9.088303226909279]
力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある
我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
論文 参考訳(メタデータ) (2020-11-16T17:15:57Z) - An Improved Semi-Supervised VAE for Learning Disentangled
Representations [29.38345769998613]
ラベルの置き換えを意味する別の監督源を導入します。
トレーニング中は、データポイントに関連付けられた推論された表現を、いつでもその接地的表現に置き換える。
我々の拡張は、理論的には、半教師付き非絡み合い学習の一般的な枠組みに着想を得たものである。
論文 参考訳(メタデータ) (2020-06-12T20:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。