論文の概要: Deep Intrinsically Motivated Exploration in Continuous Control
- arxiv url: http://arxiv.org/abs/2210.00293v1
- Date: Sat, 1 Oct 2022 14:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:38:19.946001
- Title: Deep Intrinsically Motivated Exploration in Continuous Control
- Title(参考訳): 継続的制御における深い本質的動機づけによる探索
- Authors: Baturay Saglam, Suleyman S. Kozat
- Abstract要約: 連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In continuous control, exploration is often performed through undirected
strategies in which parameters of the networks or selected actions are
perturbed by random noise. Although the deep setting of undirected exploration
has been shown to improve the performance of on-policy methods, they introduce
an excessive computational complexity and are known to fail in the off-policy
setting. The intrinsically motivated exploration is an effective alternative to
the undirected strategies, but they are usually studied for discrete action
domains. In this paper, we investigate how intrinsic motivation can effectively
be combined with deep reinforcement learning in the control of continuous
systems to obtain a directed exploratory behavior. We adapt the existing
theories on animal motivational systems into the reinforcement learning
paradigm and introduce a novel and scalable directed exploration strategy. The
introduced approach, motivated by the maximization of the value function's
error, can benefit from a collected set of experiences by extracting useful
information and unify the intrinsic exploration motivations in the literature
under a single exploration objective. An extensive set of empirical studies
demonstrate that our framework extends to larger and more diverse state spaces,
dramatically improves the baselines, and outperforms the undirected strategies
significantly.
- Abstract(参考訳): 連続制御では、ネットワークのパラメータや選択されたアクションがランダムノイズによって摂動する無向戦略によって探索が行われることが多い。
非向探索の深い設定は、オンポリシー法の性能を向上させることが示されているが、過剰な計算の複雑さをもたらし、オフポリシー設定では失敗することが知られている。
本質的に動機づけられた探索は、無向戦略の効果的な代替であるが、通常は離散的な行動領域で研究されている。
本稿では,連続システムの制御において,本質的なモチベーションと深い強化学習が効果的に組み合わさって,探究行動を得る方法について検討する。
我々は,動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ,新しいスケーラブルな有向探索戦略を導入する。
提案手法は,有意関数の誤差の最大化を動機として,有用情報を抽出し,単一の探索目的の下で本質的な探索動機を統一することにより,収集された経験の集合の恩恵を受けることができる。
大規模な実証研究により、我々のフレームワークはより大きく多様な状態空間に拡張され、ベースラインが劇的に改善され、非方向性の戦略を著しく上回ることを示した。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - State-Novelty Guided Action Persistence in Deep Reinforcement Learning [7.05832012052375]
状態空間の現在の探索状況に基づいて動的に動作の持続性を調整する新しい手法を提案する。
本手法は, 時間的持続性を組み込むため, 様々な基礎探査手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-09T08:34:22Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Intrinsic Motivation in Model-based Reinforcement Learning: A Brief
Review [77.34726150561087]
本稿では,エージェントが獲得した世界モデルに基づいて,本質的な動機付けを決定するための既存の手法について考察する。
提案した統合フレームワークは,学習を改善するために,世界モデルと本質的なモチベーションを用いてエージェントのアーキテクチャを記述する。
論文 参考訳(メタデータ) (2023-01-24T15:13:02Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。