Fugu-MT 論文翻訳(概要): Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation

論文の概要: Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation

arxiv url: http://arxiv.org/abs/2403.04453v1
Date: Thu, 7 Mar 2024 12:45:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 14:03:32.084693
Title: Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation
Title（参考訳）: Vlearn: 効率的な状態値関数推定によるオフポリティ学習
Authors: Fabian Otto, Philipp Becker, Vien Ang Ngo, Gerhard Neumann
Abstract要約: Vlearnと呼ばれる新しい信頼領域最適化手法を提案し、これは明示的な状態-行動-値関数の要求をなくす。 Vlearnは、高次元のアクション空間によって引き起こされる計算上の課題に対処する。また、オフ・ポリティシ・セッティングにおける純粋状態値関数学習に関連する課題に対処するための効率的なアプローチも導入している。
参考スコア（独自算出の注目度）: 18.345090991732985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing off-policy reinforcement learning algorithms typically necessitate an explicit state-action-value function representation, which becomes problematic in high-dimensional action spaces. These algorithms often encounter challenges where they struggle with the curse of dimensionality, as maintaining a state-action-value function in such spaces becomes data-inefficient. In this work, we propose a novel off-policy trust region optimization approach, called Vlearn, that eliminates the requirement for an explicit state-action-value function. Instead, we demonstrate how to efficiently leverage just a state-value function as the critic, thus overcoming several limitations of existing methods. By doing so, Vlearn addresses the computational challenges posed by high-dimensional action spaces. Furthermore, Vlearn introduces an efficient approach to address the challenges associated with pure state-value function learning in the off-policy setting. This approach not only simplifies the implementation of off-policy policy gradient algorithms but also leads to consistent and robust performance across various benchmark tasks. Specifically, by removing the need for a state-action-value function Vlearn simplifies the learning process and allows for more efficient exploration and exploitation in complex environments
Abstract（参考訳）: 既存の非政治強化学習アルゴリズムは、高次元の行動空間において問題となる明示的な状態-作用-値関数表現を必要とする。これらのアルゴリズムは、そのような空間における状態-作用-値関数の維持がデータ非効率になるため、しばしば次元の呪いに苦しむ問題に直面する。そこで本研究では,明示的な状態-動作-値関数の要求を排除した,新たな信頼領域最適化手法であるVlearnを提案する。代わりに、批判者として状態値関数のみを効率的に活用する方法を示し、既存のメソッドのいくつかの制限を克服する。 Vlearnは、高次元のアクション空間によって引き起こされる計算問題に対処する。さらに、vlearnは、オフポリシー設定で純粋な状態値関数学習に関連する課題に対処するための効率的なアプローチを導入している。このアプローチは、オフポリシーのポリシー勾配アルゴリズムの実装を単純化するだけでなく、様々なベンチマークタスクで一貫した堅牢なパフォーマンスをもたらす。具体的には、状態-作用-値関数の必要性を取り除くことにより、Vlearnは学習プロセスを単純化し、複雑な環境でより効率的な探索と利用を可能にする。

関連論文リスト

What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文参考訳（メタデータ） (2025-05-12T21:24:22Z)
Online Reinforcement Learning-Based Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks [5.115170525117103]
リアルタイム戦略タスクの効果的な評価には、動的で予測不可能な環境に対処するための適応的なメカニズムが必要である。本研究では,戦場状況変化に対するリアルタイム応答性評価機能の改善手法を提案する。
論文参考訳（メタデータ） (2025-01-07T14:36:33Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Accelerating Policy Gradient by Estimating Value Function from Prior Computation in Deep Reinforcement Learning [16.999444076456268]
そこで本研究では,事前計算を用いて値関数を推定し,オンライン政策勾配法におけるサンプル効率を向上する方法について検討する。特に,対象タスクに対する新しい値関数を事前の値推定と組み合わせて学習する。結果の値関数は、ポリシー勾配法におけるベースラインとして使用される。
論文参考訳（メタデータ） (2023-02-02T20:23:22Z)
Confidence-Conditioned Value Functions for Offline Reinforcement Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文参考訳（メタデータ） (2022-12-08T23:56:47Z)
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文参考訳（メタデータ） (2022-10-03T07:59:42Z)
Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-01T19:18:15Z)
Near-optimal Offline Reinforcement Learning with Linear Representation: Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文参考訳（メタデータ） (2022-03-11T09:00:12Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-08-22T16:00:45Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
On the Outsized Importance of Learning Rates in Local Update Methods [2.094022863940315]
我々は,多くのフェデレーション学習とメタ学習アルゴリズムを一般化する,局所的な更新手法と呼ばれるアルゴリズム群について検討する。 2次目的に対して、局所更新法は、正に特徴付けられる代理損失関数の勾配降下を実行することを証明した。クライアント学習率の選択は、サロゲート損失の条件数と、サロゲート最小化関数と真の損失関数との距離を制御していることを示す。
論文参考訳（メタデータ） (2020-07-02T04:45:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。