論文の概要: Action Pick-up in Dynamic Action Space Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.00873v1
- Date: Mon, 3 Apr 2023 10:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:47:26.074045
- Title: Action Pick-up in Dynamic Action Space Reinforcement Learning
- Title(参考訳): 動的行動空間強化学習におけるアクションピックアップ
- Authors: Jiaqi Ye, Xiaodong Li, Pangjing Wu, Feng Wang
- Abstract要約: 我々は,新しいアクションセットからパフォーマンスを高める可能性が最も高い価値あるアクションを自律的に選択するための,インテリジェントなアクションピックアップ(AP)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を担っていることを理論的に分析し,発見する。
次に、周波数に基づくグローバルメソッドと、事前の最適ポリシーに基づく状態クラスタリングに基づくローカルメソッドの2つの異なるAPメソッドを設計する。
- 参考スコア(独自算出の注目度): 6.15205100319133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most reinforcement learning algorithms are based on a key assumption that
Markov decision processes (MDPs) are stationary. However, non-stationary MDPs
with dynamic action space are omnipresent in real-world scenarios. Yet problems
of dynamic action space reinforcement learning have been studied by many
previous works, how to choose valuable actions from new and unseen actions to
improve learning efficiency remains unaddressed. To tackle this problem, we
propose an intelligent Action Pick-up (AP) algorithm to autonomously choose
valuable actions that are most likely to boost performance from a set of new
actions. In this paper, we first theoretically analyze and find that a prior
optimal policy plays an important role in action pick-up by providing useful
knowledge and experience. Then, we design two different AP methods:
frequency-based global method and state clustering-based local method, based on
the prior optimal policy. Finally, we evaluate the AP on two simulated but
challenging environments where action spaces vary over time. Experimental
results demonstrate that our proposed AP has advantages over baselines in
learning efficiency.
- Abstract(参考訳): ほとんどの強化学習アルゴリズムはマルコフ決定過程(MDP)が定常であるという重要な仮定に基づいている。
しかし、動的アクション空間を持つ非定常MDPは、実世界のシナリオにおいて一様である。
しかし, 動的行動空間強化学習の課題は, これまでにも数多く研究されてきたが, 学習効率を向上させるために, 新たな, 目に見えない行動から, どのように価値ある行動を選択するかは未定のままである。
この問題に対処するために,我々は,新たなアクション群からパフォーマンスを最も高める可能性のある有用なアクションを自律的に選択するインテリジェントアクションピックアップ(ap)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を果たすことを理論的に分析し,発見する。
次に,事前の最適ポリシーに基づいて,周波数ベースグローバル法と状態クラスタリングベースローカル法という2つの異なるap法を設計する。
最後に,動作空間が時間とともに変化する2つのシミュレーション環境におけるAPの評価を行った。
実験の結果,提案したAPは学習効率のベースラインよりも優れていることがわかった。
関連論文リスト
- Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z) - Decaying Clipping Range in Proximal Policy Optimization [0.0]
PPO(Proximal Policy Optimization)は、強化学習で最も広く使用されているアルゴリズムの1つです。
その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。
トレーニング全体を通して線形および指数関数的に減衰するクリッピング範囲のアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:08:05Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。