論文の概要: Exploiting Action Impact Regularity and Exogenous State Variables for
Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.08066v5
- Date: Wed, 3 May 2023 17:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 19:19:33.826378
- Title: Exploiting Action Impact Regularity and Exogenous State Variables for
Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における行動影響正規性と外因的状態変数の活用
- Authors: Vincent Liu, James R. Wright, Martha White
- Abstract要約: 我々は,オフライン強化学習の保証を得るために,制限されたMDPのクラスを探究する。
本稿では,Action Impact Regularity(AIR)特性を利用するアルゴリズムについて論じ,Fitted-Q Iterationに基づくアルゴリズムの理論解析を行う。
このアルゴリズムは,シミュレーションおよび実環境において,異なるデータ収集ポリシー間で,既存のオフライン強化学習アルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 30.337391523928396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning -- learning a policy from a batch of data --
is known to be hard for general MDPs. These results motivate the need to look
at specific classes of MDPs where offline reinforcement learning might be
feasible. In this work, we explore a restricted class of MDPs to obtain
guarantees for offline reinforcement learning. The key property, which we call
Action Impact Regularity (AIR), is that actions primarily impact a part of the
state (an endogenous component) and have limited impact on the remaining part
of the state (an exogenous component). AIR is a strong assumption, but it
nonetheless holds in a number of real-world domains including financial
markets. We discuss algorithms that exploit the AIR property, and provide a
theoretical analysis for an algorithm based on Fitted-Q Iteration. Finally, we
demonstrate that the algorithm outperforms existing offline reinforcement
learning algorithms across different data collection policies in simulated and
real world environments where the regularity holds.
- Abstract(参考訳): オフラインの強化学習 -- 一連のデータからポリシーを学ぶ -- は、一般のMDPにとって難しいことが知られている。
これらの結果は、オフライン強化学習が実現可能な特定のMDPのクラスを検討する必要性を動機付けている。
本研究では,オフライン強化学習の保証を得るために,制限されたMDPのクラスを探索する。
私たちがAIR(Action Impact Regularity)と呼ぶ重要な特性は、アクションが主に状態の一部(内因性コンポーネント)に影響を与え、残りの部分(外因性コンポーネント)に限られた影響を与えることです。
AIRは強い仮定ですが、それでも金融市場を含む多くの現実世界のドメインに当てはまります。
本稿では,AIR特性を利用したアルゴリズムについて論じ,Fitted-Qイテレーションに基づくアルゴリズムの理論解析を行う。
最後に、本アルゴリズムは、正規性が保持されるシミュレーション環境および実環境において、さまざまなデータ収集ポリシーにまたがって、既存のオフライン強化学習アルゴリズムを上回ることを実証する。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Behavior Prior Representation learning for Offline Reinforcement
Learning [23.200489608592694]
状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-11-02T04:15:20Z) - Data Valuation for Offline Reinforcement Learning [1.3535770763481902]
オフライン強化学習の分野は、データの収集をドメインの専門家や注意深く監視されたプログラムにアウトソーシングすることで問題に対処する。
データマーケットの出現に伴い、社内でデータセットを構築する代替手段として、外部データを購入することが挙げられる。
これにより、外部から取得したデータに基づいてトレーニングされたオフライン強化学習エージェントの転送可能性と堅牢性に関する疑問が提起される。
論文 参考訳(メタデータ) (2022-05-19T13:21:40Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。