論文の概要: Vlearn: Off-Policy Learning with Efficient State-Value Function
Estimation
- arxiv url: http://arxiv.org/abs/2403.04453v1
- Date: Thu, 7 Mar 2024 12:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:03:32.084693
- Title: Vlearn: Off-Policy Learning with Efficient State-Value Function
Estimation
- Title(参考訳): Vlearn: 効率的な状態値関数推定によるオフポリティ学習
- Authors: Fabian Otto, Philipp Becker, Vien Ang Ngo, Gerhard Neumann
- Abstract要約: Vlearnと呼ばれる新しい信頼領域最適化手法を提案し、これは明示的な状態-行動-値関数の要求をなくす。
Vlearnは、高次元のアクション空間によって引き起こされる計算上の課題に対処する。
また、オフ・ポリティシ・セッティングにおける純粋状態値関数学習に関連する課題に対処するための効率的なアプローチも導入している。
- 参考スコア(独自算出の注目度): 18.345090991732985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing off-policy reinforcement learning algorithms typically necessitate
an explicit state-action-value function representation, which becomes
problematic in high-dimensional action spaces. These algorithms often encounter
challenges where they struggle with the curse of dimensionality, as maintaining
a state-action-value function in such spaces becomes data-inefficient. In this
work, we propose a novel off-policy trust region optimization approach, called
Vlearn, that eliminates the requirement for an explicit state-action-value
function. Instead, we demonstrate how to efficiently leverage just a
state-value function as the critic, thus overcoming several limitations of
existing methods. By doing so, Vlearn addresses the computational challenges
posed by high-dimensional action spaces. Furthermore, Vlearn introduces an
efficient approach to address the challenges associated with pure state-value
function learning in the off-policy setting. This approach not only simplifies
the implementation of off-policy policy gradient algorithms but also leads to
consistent and robust performance across various benchmark tasks. Specifically,
by removing the need for a state-action-value function Vlearn simplifies the
learning process and allows for more efficient exploration and exploitation in
complex environments
- Abstract(参考訳): 既存の非政治強化学習アルゴリズムは、高次元の行動空間において問題となる明示的な状態-作用-値関数表現を必要とする。
これらのアルゴリズムは、そのような空間における状態-作用-値関数の維持がデータ非効率になるため、しばしば次元の呪いに苦しむ問題に直面する。
そこで本研究では,明示的な状態-動作-値関数の要求を排除した,新たな信頼領域最適化手法であるVlearnを提案する。
代わりに、批判者として状態値関数のみを効率的に活用する方法を示し、既存のメソッドのいくつかの制限を克服する。
Vlearnは、高次元のアクション空間によって引き起こされる計算問題に対処する。
さらに、vlearnは、オフポリシー設定で純粋な状態値関数学習に関連する課題に対処するための効率的なアプローチを導入している。
このアプローチは、オフポリシーのポリシー勾配アルゴリズムの実装を単純化するだけでなく、様々なベンチマークタスクで一貫した堅牢なパフォーマンスをもたらす。
具体的には、状態-作用-値関数の必要性を取り除くことにより、Vlearnは学習プロセスを単純化し、複雑な環境でより効率的な探索と利用を可能にする。
関連論文リスト
- Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Low-Dimensional State and Action Representation Learning with MDP
Homomorphism Metrics [1.5293427903448022]
深層強化学習(Deep Reinforcement Learning)は、高次元観察から直接複雑な問題を解く能力を示している。
エンドツーエンドの設定では、強化学習アルゴリズムはサンプリング効率が良くなく、長いトレーニング時間と大量のデータを必要とする。
状態と行動表現を利用して高次元問題を低次元に変換するサンプル効率強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T16:26:04Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。