論文の概要: Statistically Efficient Advantage Learning for Offline Reinforcement
Learning in Infinite Horizons
- arxiv url: http://arxiv.org/abs/2202.13163v1
- Date: Sat, 26 Feb 2022 15:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 14:15:50.107610
- Title: Statistically Efficient Advantage Learning for Offline Reinforcement
Learning in Infinite Horizons
- Title(参考訳): 無限ホライズンズにおけるオフライン強化学習のための統計的に効率的なアドバンテージ学習
- Authors: Chengchun Shi, Shikai Luo, Hongtu Zhu and Rui Song
- Abstract要約: モバイルヘルスアプリケーションなどのオンラインデータ収集を伴わないオフライン領域での強化学習手法を検討する。
提案手法は、既存の最先端RLアルゴリズムによって計算された最適Q推定器を入力とし、初期Q推定器に基づいて導出されたポリシーよりも高速に収束することが保証された新しいポリシーを出力する。
- 参考スコア(独自算出の注目度): 16.635744815056906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider reinforcement learning (RL) methods in offline domains without
additional online data collection, such as mobile health applications. Most of
existing policy optimization algorithms in the computer science literature are
developed in online settings where data are easy to collect or simulate. Their
generalizations to mobile health applications with a pre-collected offline
dataset remain unknown. The aim of this paper is to develop a novel advantage
learning framework in order to efficiently use pre-collected data for policy
optimization. The proposed method takes an optimal Q-estimator computed by any
existing state-of-the-art RL algorithms as input, and outputs a new policy
whose value is guaranteed to converge at a faster rate than the policy derived
based on the initial Q-estimator. Extensive numerical experiments are conducted
to back up our theoretical findings.
- Abstract(参考訳): モバイルヘルスアプリケーションなど,オンラインデータ収集が不要なオフラインドメインでは,強化学習(rl)手法を検討する。
コンピュータ科学文献における既存のポリシー最適化アルゴリズムのほとんどは、データの収集やシミュレートが容易なオンライン環境で開発されている。
オフラインデータセットを事前にコンパイルしたモバイルヘルスアプリケーションへの一般化はまだ不明だ。
本稿では,事前収集したデータを政策最適化に効率的に利用するために,新しいアドバンテージ学習フレームワークを開発することを目的とする。
提案手法は、既存の最先端rlアルゴリズムで計算された最適q推定器を入力とし、初期q推定器に基づいて導出されるポリシーよりも高速に収束することが保証された新しいポリシーを出力する。
理論的知見を裏付ける大規模な数値実験を行った。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Deployment-Efficient Reinforcement Learning via Model-Based Offline
Optimization [46.017212565714175]
本稿では,政策学習に使用される異なるデータ収集ポリシーの数を測定する,展開効率の新たな概念を提案する。
本研究では,従来よりも10~20倍少ないデータを用いてオフラインでポリシーを効果的に最適化できるモデルベースアルゴリズムBREMENを提案する。
論文 参考訳(メタデータ) (2020-06-05T19:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。