論文の概要: Policy Gradients Incorporating the Future
- arxiv url: http://arxiv.org/abs/2108.02096v1
- Date: Wed, 4 Aug 2021 14:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 15:55:50.936238
- Title: Policy Gradients Incorporating the Future
- Title(参考訳): 将来を包含する政策勾配
- Authors: David Venuto, Elaine Lau, Doina Precup, Ofir Nachum
- Abstract要約: 我々はエージェントが明示的に予測することなく「未来を見る」方法を紹介した。
我々は,エージェントが過去の経験を学習中に,その将来に何が起こったのかを観察できるように提案する。
これにより、エージェントは、現在に加えて、将来の軌道力学に関するリッチで有用な情報を利用することができる。
- 参考スコア(独自算出の注目度): 66.20567145291342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about the future -- understanding how decisions in the present time
affect outcomes in the future -- is one of the central challenges for
reinforcement learning (RL), especially in highly-stochastic or partially
observable environments. While predicting the future directly is hard, in this
work we introduce a method that allows an agent to "look into the future"
without explicitly predicting it. Namely, we propose to allow an agent, during
its training on past experience, to observe what \emph{actually} happened in
the future at that time, while enforcing an information bottleneck to avoid the
agent overly relying on this privileged information. This gives our agent the
opportunity to utilize rich and useful information about the future trajectory
dynamics in addition to the present. Our method, Policy Gradients Incorporating
the Future (PGIF), is easy to implement and versatile, being applicable to
virtually any policy gradient algorithm. We apply our proposed method to a
number of off-the-shelf RL algorithms and show that PGIF is able to achieve
higher reward faster in a variety of online and offline RL domains, as well as
sparse-reward and partially observable environments.
- Abstract(参考訳): 未来についての推論 -- 現在の意思決定が将来の成果にどのように影響するかを理解する -- は、特に高度に確率的あるいは部分的に観察可能な環境において、強化学習(RL)における中心的な課題の1つである。
未来を直接予測することは難しいが、本研究ではエージェントがそれを明示的に予測することなく「未来を見渡す」ことができる方法を紹介する。
そこで本稿では,エージェントが過去の経験を積んだトレーニング中に,その情報に過度に依存するエージェントを避けるために,情報ボトルネックを強制しながら,その時点での‘emph{actually}’の発生を観察することを提案する。
これにより、エージェントは、現在に加えて、将来の軌道力学に関するリッチで有用な情報を利用することができる。
本手法は将来性(pgif)を組み込んだポリシー勾配であり,実装が容易で汎用性があり,事実上任意のポリシー勾配アルゴリズムに適用可能である。
提案手法を市販のRLアルゴリズムに適用し,オンラインおよびオフラインのRLドメインや疎逆・部分観測可能な環境において,PGIFがより高速に高い報酬を得られることを示す。
関連論文リスト
- FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction [18.10147252674138]
動作予測(FIMP)のための未来のインタラクションモデリングを提案し,その将来的なインタラクションをエンドツーエンドで捉える。
実験により,今後のインタラクションモデリングにより性能が著しく向上し,Argoverseモーション予測ベンチマークの性能が向上することが示された。
論文 参考訳(メタデータ) (2024-01-29T14:41:55Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Lifelong Hyper-Policy Optimization with Multiple Importance Sampling
Regularization [40.17392342387002]
本稿では,その時にクエリされるポリシーのパラメータを出力する,入力が時間である超政治を学習する手法を提案する。
この超政治は、推定される将来のパフォーマンスを最大化し、重要サンプリングによって過去のデータを効率的に再利用するように訓練されている。
実環境において、最先端のアルゴリズムと比較して、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-12-13T13:09:49Z) - Useful Policy Invariant Shaping from Arbitrary Advice [24.59807772487328]
RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。
最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
論文 参考訳(メタデータ) (2020-11-02T20:29:09Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Deep Reinforcement and InfoMax Learning [32.426674181365456]
本稿では,Deep InfoMaxに基づく目標について紹介する。これはエージェントが連続した時間ステップの内部表現間の相互情報を最大化し,未来を予測することを訓練するものである。
提案手法をいくつかの合成条件で検証し,将来予測可能な表現の学習に成功した。
論文 参考訳(メタデータ) (2020-06-12T14:19:46Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。