論文の概要: Dichotomy of Control: Separating What You Can Control from What You
Cannot
- arxiv url: http://arxiv.org/abs/2210.13435v1
- Date: Mon, 24 Oct 2022 17:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:42:14.078274
- Title: Dichotomy of Control: Separating What You Can Control from What You
Cannot
- Title(参考訳): 制御の二分法:コントロールできないものからコントロールできるものを切り離す
- Authors: Mengjiao Yang, Dale Schuurmans, Pieter Abbeel, Ofir Nachum
- Abstract要約: 政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
- 参考スコア(独自算出の注目度): 129.62135987416164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Future- or return-conditioned supervised learning is an emerging paradigm for
offline reinforcement learning (RL), where the future outcome (i.e., return)
associated with an observed action sequence is used as input to a policy
trained to imitate those same actions. While return-conditioning is at the
heart of popular algorithms such as decision transformer (DT), these methods
tend to perform poorly in highly stochastic environments, where an occasional
high return can arise from randomness in the environment rather than the
actions themselves. Such situations can lead to a learned policy that is
inconsistent with its conditioning inputs; i.e., using the policy to act in the
environment, when conditioning on a specific desired return, leads to a
distribution of real returns that is wildly different than desired. In this
work, we propose the dichotomy of control (DoC), a future-conditioned
supervised learning framework that separates mechanisms within a policy's
control (actions) from those beyond a policy's control (environment
stochasticity). We achieve this separation by conditioning the policy on a
latent variable representation of the future, and designing a mutual
information constraint that removes any information from the latent variable
associated with randomness in the environment. Theoretically, we show that DoC
yields policies that are consistent with their conditioning inputs, ensuring
that conditioning a learned policy on a desired high-return future outcome will
correctly induce high-return behavior. Empirically, we show that DoC is able to
achieve significantly better performance than DT on environments that have
highly stochastic rewards and transition
- Abstract(参考訳): future- or return-conditioned supervised learningは、オフライン強化学習(rl)のための新しいパラダイムであり、観察されたアクションシーケンスに関連する将来の結果(つまりリターン)が、これら同じアクションを模倣するように訓練されたポリシーへの入力として使用される。
回帰条件付けは、決定変換器(DT)のような一般的なアルゴリズムの中心にあるが、これらの手法は高度に確率的な環境では、アクション自体よりも環境内のランダム性からしばしば高いリターンが発生する。
このような状況は、条件付け入力と矛盾する学習方針、すなわち、特定の所望のリターンを条件付けする場合、環境に作用するポリシーを使用することによって、所望と大きく異なる実リターンの分布につながる可能性がある。
本研究では、政策の制御(行動)と政策の制御(環境確率性)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークである制御二分法(DoC)を提案する。
この分離は、将来の潜在変数表現のポリシーを条件付けし、環境のランダム性に関連する潜在変数から任意の情報を削除する相互情報制約を設計することにより達成される。
理論的には、DoCは条件付入力と整合したポリシーを出力し、学習したポリシーを所望のハイリターン将来の結果に条件付けすることで、高リターン動作を正しく引き起こすことを示す。
経験的に、確率的な報酬と遷移を持つ環境において、DoCはDTよりもはるかに優れた性能を達成できることが示される。
関連論文リスト
- Decision Making in Non-Stationary Environments with Policy-Augmented
Search [9.000981144624507]
textitPolicy-Augmented Monte Carlo Tree Search (PA-MCTS)を紹介する。
行動価値の推定は、最新のポリシーと、その環境の最新のモデルを用いたオンライン検索を組み合わせる。
PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。
論文 参考訳(メタデータ) (2024-01-06T11:51:50Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Robust Deep Reinforcement Learning for Quadcopter Control [0.8687092759073857]
本研究では、ロバスト・マルコフ決定プロセス(RMDP)を用いてドローン制御ポリシーを訓練する。
それは、ある環境から別の環境への政策移行の間の潜在的なギャップを扱うための悲観的な最適化を選択する。
訓練された制御ポリシーは、クワッドコプターの位置制御のタスクでテストされる。
論文 参考訳(メタデータ) (2021-11-06T16:35:13Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。