論文の概要: Beware of Instantaneous Dependence in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.05458v1
- Date: Thu, 9 Mar 2023 17:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 13:46:18.448995
- Title: Beware of Instantaneous Dependence in Reinforcement Learning
- Title(参考訳): 強化学習における瞬時依存の注意
- Authors: Zhengmao Zhu, Yuren Liu, Honglong Tian, Yang Yu, Kun Zhang
- Abstract要約: 既存の作業は通常、将来の状態変数が過去の状態から条件的に独立であると仮定して、状態への即時依存を無視している。
本稿では, モデルに基づく強化学習において, 瞬時依存を無視した場合, 最適政策学習が生じることを実証する。
本稿では,既存のMBRLアルゴリズムが瞬時依存を考慮に入れられるための,シンプルなプラグアンドプレイ手法を提案する。
- 参考スコア(独自算出の注目度): 9.376353239574243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Playing an important role in Model-Based Reinforcement Learning (MBRL),
environment models aim to predict future states based on the past. Existing
works usually ignore instantaneous dependence in the state, that is, assuming
that the future state variables are conditionally independent given the past
states. However, instantaneous dependence is prevalent in many RL environments.
For instance, in the stock market, instantaneous dependence can exist between
two stocks because the fluctuation of one stock can quickly affect the other
and the resolution of price change is lower than that of the effect. In this
paper, we prove that with few exceptions, ignoring instantaneous dependence can
result in suboptimal policy learning in MBRL. To address the suboptimality
problem, we propose a simple plug-and-play method to enable existing MBRL
algorithms to take instantaneous dependence into account. Through experiments
on two benchmarks, we (1) confirm the existence of instantaneous dependence
with visualization; (2) validate our theoretical findings that ignoring
instantaneous dependence leads to suboptimal policy; (3) verify that our method
effectively enables reinforcement learning with instantaneous dependence and
improves policy performance.
- Abstract(参考訳): モデルベース強化学習(MBRL)において重要な役割を果たす環境モデルは、過去に基づく将来の状態を予測することを目的としている。
既存の著作物は通常、状態の瞬時依存、すなわち将来の状態変数が過去の状態から条件付き独立であると仮定して無視する。
しかし、多くのRL環境では瞬時依存が一般的である。
例えば、株式市場では、1株の変動がもう1株に素早く影響を与え、価格変動の解決が効果のそれよりも低いため、2株の間に即時依存が存在する可能性がある。
本稿では, 例外が少なく, 瞬時依存を無視した場合, MBRLにおける準最適政策学習がもたらされることを示す。
そこで本研究では,既存のMBRLアルゴリズムを瞬時依存性を考慮した簡易なプラグアンドプレイ手法を提案する。
2つのベンチマークを用いて,(1)可視化による即時依存の存在を確認し,(2)瞬時依存を無視した理論的知見が最適下限政策につながることを検証し,(3)即時依存による強化学習を効果的に実現し,政策性能を向上させることを検証する。
関連論文リスト
- Robust off-policy Reinforcement Learning via Soft Constrained Adversary [0.7583052519127079]
本稿では,f-divergence制約問題と,それ以前の知識分布について述べる。
2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。
提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-31T11:13:33Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。
本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。
望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文 参考訳(メタデータ) (2021-09-13T16:09:31Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。