Fugu-MT 論文翻訳(概要): Sample Efficient Deep Reinforcement Learning via Local Planning

論文の概要: Sample Efficient Deep Reinforcement Learning via Local Planning

arxiv url: http://arxiv.org/abs/2301.12579v2
Date: Mon, 3 Jul 2023 04:36:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-04 14:50:57.870140
Title: Sample Efficient Deep Reinforcement Learning via Local Planning
Title（参考訳）: ローカルプランニングによる高効率深層強化学習
Authors: Dong Yin, Sridhar Thiagarajan, Nevena Lazic, Nived Rajaraman, Botao Hao, Csaba Szepesvari
Abstract要約: 本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
参考スコア（独自算出の注目度）: 21.420851589712626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The focus of this work is sample-efficient deep reinforcement learning (RL) with a simulator. One useful property of simulators is that it is typically easy to reset the environment to a previously observed state. We propose an algorithmic framework, named uncertainty-first local planning (UFLP), that takes advantage of this property. Concretely, in each data collection iteration, with some probability, our meta-algorithm resets the environment to an observed state which has high uncertainty, instead of sampling according to the initial-state distribution. The agent-environment interaction then proceeds as in the standard online RL setting. We demonstrate that this simple procedure can dramatically improve the sample cost of several baseline RL algorithms on difficult exploration tasks. Notably, with our framework, we can achieve super-human performance on the notoriously hard Atari game, Montezuma's Revenge, with a simple (distributional) double DQN. Our work can be seen as an efficient approximate implementation of an existing algorithm with theoretical guarantees, which offers an interpretation of the positive empirical results.
Abstract（参考訳）: 本研究の焦点は,シミュレータを用いた試料効率深部強化学習(RL)である。シミュレーターの便利な特性の1つは、通常、環境を以前観測された状態にリセットすることが容易であることである。本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。具体的には、各データ収集イテレーションにおいて、いくつかの確率で、我々のメタアルゴリズムは、初期状態分布に従ってサンプリングするのではなく、環境を高い不確実性を持つ観測状態にリセットする。エージェント-環境相互作用は、標準オンラインRL設定のように進行する。この簡単な手順は、難しい探索タスクにおいて、いくつかのベースラインrlアルゴリズムのサンプルコストを劇的に改善できることを実証する。特に、我々のフレームワークでは、単純な(分配的な)ダブルDQNで、悪名高いアタリゲームであるモンテズマのリベンジで超人的なパフォーマンスを達成することができる。我々の研究は、理論的な保証のある既存のアルゴリズムの効率的な近似実装と見なすことができ、肯定的な結果の解釈を提供する。

関連論文リスト

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2026-01-10T08:43:07Z)
Distributionally Robust Online Markov Game with Linear Function Approximation [2.4636535146231613]
シミュレーターで訓練されたエージェントがテスト中に大幅なパフォーマンス低下に直面している、シミュレート・トゥ・リアルギャップは、強化学習における根本的な課題である。対話型データ収集と大規模状態空間を用いたサンプル効率のアルゴリズムを考案する。提案手法では,本アルゴリズムは単一エージェント設定において,これまでで最高の結果と一致し,最小限のサンプル値の複雑性を実現する。
論文参考訳（メタデータ） (2025-11-11T04:56:39Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文参考訳（メタデータ） (2024-04-23T18:09:53Z)
Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-04T16:40:22Z)
Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文参考訳（メタデータ） (2024-02-05T10:04:00Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。 AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-12-19T14:46:57Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。