論文の概要: Efficient Reinforcemen Learning via Decoupling Exploration and
Utilization
- arxiv url: http://arxiv.org/abs/2312.15965v3
- Date: Wed, 17 Jan 2024 07:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 11:32:10.371890
- Title: Efficient Reinforcemen Learning via Decoupling Exploration and
Utilization
- Title(参考訳): 探索と利用の分離による効率的強化学習
- Authors: Jingpu Yang, Qirui Zhao, Helin Wang, Yuxiao Huang, Zirui Song, Miao
Fang
- Abstract要約: 本研究は,OPARL(Optimistic and Pessimistic Actor Reinforcement Learning)の新たな枠組みを提案する。
OPARLは、探索に特化した楽観的なアクターと、利用に焦点を当てた悲観的なアクターという、ユニークなデュアルアクターアプローチを採用している。
実験と理論的研究は、OPARLが応用と探索のためのエージェントの能力を改善することを実証している。
- 参考スコア(独自算出の注目度): 9.67983570115056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural network(DNN) generalization is limited by the over-reliance of
current offline reinforcement learning techniques on conservative processing of
existing datasets. This method frequently results in algorithms that settle for
suboptimal solutions that only adjust to a certain dataset. Similarly, in
online reinforcement learning, the previously imposed punitive pessimism also
deprives the model of its exploratory potential. Our research proposes a novel
framework, Optimistic and Pessimistic Actor Reinforcement Learning (OPARL).
OPARL employs a unique dual-actor approach: an optimistic actor dedicated to
exploration and a pessimistic actor focused on utilization, thereby effectively
differentiating between exploration and utilization strategies. This unique
combination in reinforcement learning methods fosters a more balanced and
efficient approach. It enables the optimization of policies that focus on
actions yielding high rewards through pessimistic utilization strategies, while
also ensuring extensive state coverage via optimistic exploration. Experiments
and theoretical study demonstrates OPARL improves agents' capacities for
application and exploration. In the most tasks of DMControl benchmark and
Mujoco environment, OPARL performed better than state-of-the-art methods. Our
code has released on https://github.com/yydsok/OPARL
- Abstract(参考訳): deep neural network(dnn)の一般化は、既存のデータセットの保守的処理に対する現在のオフライン強化学習技術への過度な依存によって制限される。
この手法は、特定のデータセットにのみ適応する最適でない解に落ち着くアルゴリズムをしばしば生み出す。
同様に、オンライン強化学習において、以前に課せられた懲罰的悲観主義は、その探索可能性のモデルを奪う。
本研究は,OPARL(Optimistic and Pessimistic Actor Reinforcement Learning)の新たな枠組みを提案する。
OPARLは、探索に特化した楽観的なアクターと、利用に焦点を当てた悲観的なアクターと、探索と利用戦略を効果的に区別する、ユニークなデュアルアクターアプローチを採用している。
この強化学習手法の独特な組み合わせは、よりバランスよく効率的なアプローチを促進する。
悲観的な利用戦略を通じて高い報酬をもたらす行動に焦点をあてる政策の最適化を可能にすると同時に、楽観的な探索を通じて広範な国家のカバレッジを確保することができる。
実験と理論的研究は、OPARLが応用と探索のためのエージェントの能力を改善することを示した。
DMControlベンチマークとMujoco環境のほとんどのタスクにおいて、OPARLは最先端の手法よりも優れている。
私たちのコードはhttps://github.com/yydsok/OPARLでリリースされました。
関連論文リスト
- Trial and Error: Exploration-Based Trajectory Optimization for LLM
Agents [52.82856458995437]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Discovered Policy Optimisation [17.458523575470384]
メタラーニングによってミラーラーニング空間を探索する。
即時結果を学習政策最適化(LPO)と呼ぶ。
LPOを解析することにより、新しい閉形式RLアルゴリズムであるDiscovered Policy optimization (DPO)の定式化に使用するポリシー最適化に関する独自の洞察を得る。
論文 参考訳(メタデータ) (2022-10-11T17:32:11Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning
in Online Reinforcement Learning [113.90282991169201]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Controlled Deep Reinforcement Learning for Optimized Slice Placement [0.8459686722437155]
我々は、"Heuristally Assisted Deep Reinforcement Learning (HA-DRL)"と呼ばれるハイブリッドML-ヒューリスティックアプローチを提案する。
提案手法は,最近のDeep Reinforcement Learning (DRL) によるスライス配置と仮想ネットワーク埋め込み (VNE) に活用されている。
評価結果から,提案したHA-DRLアルゴリズムは,効率的なスライス配置ポリシーの学習を高速化できることが示された。
論文 参考訳(メタデータ) (2021-08-03T14:54:00Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。