論文の概要: Meta-learning how to Share Credit among Macro-Actions
- arxiv url: http://arxiv.org/abs/2506.13690v1
- Date: Mon, 16 Jun 2025 16:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.087099
- Title: Meta-learning how to Share Credit among Macro-Actions
- Title(参考訳): マクロ・アクション間の信用共有のメタラーニング
- Authors: Ionel-Alexandru Hosu, Traian Rebedea, Razvan Pascanu,
- Abstract要約: この難しさは、エピソードごとの平均決定回数を減らすことと、アクションスペースのサイズを増やすことのトレードオフに起因すると我々は主張する。
本稿では,行動とマクロアクションの関係を利用して信用代入メカニズムを改善する新しい正規化用語を提案する。
その結果,全環境におけるレインボー-DQNベースラインの大幅な改善が認められた。
- 参考スコア(独自算出の注目度): 15.3064603135039
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: One proposed mechanism to improve exploration in reinforcement learning is through the use of macro-actions. Paradoxically though, in many scenarios the naive addition of macro-actions does not lead to better exploration, but rather the opposite. It has been argued that this was caused by adding non-useful macros and multiple works have focused on mechanisms to discover effectively environment-specific useful macros. In this work, we take a slightly different perspective. We argue that the difficulty stems from the trade-offs between reducing the average number of decisions per episode versus increasing the size of the action space. Namely, one typically treats each potential macro-action as independent and atomic, hence strictly increasing the search space and making typical exploration strategies inefficient. To address this problem we propose a novel regularization term that exploits the relationship between actions and macro-actions to improve the credit assignment mechanism by reducing the effective dimension of the action space and, therefore, improving exploration. The term relies on a similarity matrix that is meta-learned jointly with learning the desired policy. We empirically validate our strategy looking at macro-actions in Atari games, and the StreetFighter II environment. Our results show significant improvements over the Rainbow-DQN baseline in all environments. Additionally, we show that the macro-action similarity is transferable to related environments. We believe this work is a small but important step towards understanding how the similarity-imposed geometry on the action space can be exploited to improve credit assignment and exploration, therefore making learning more effective.
- Abstract(参考訳): 強化学習における探索を改善するための1つのメカニズムはマクロアクションの利用である。
しかし、多くのシナリオでは、マクロアクションの素直な追加はより良い探索につながるのではなく、むしろ反対である。
これは、役に立たないマクロの追加によって引き起こされたものであり、環境固有の有用なマクロを効果的に発見するためのメカニズムに、複数の研究が焦点を当てている。
この研究では、少し異なる視点を取ります。
この難しさは、エピソードごとの平均決定回数を減らすことと、アクションスペースのサイズを増やすことのトレードオフに起因すると我々は主張する。
すなわち、通常、ポテンシャルマクロ作用を独立かつ原子として扱い、従って探索空間を厳密に増加させ、典型的な探索戦略を非効率にする。
この問題に対処するために,アクション空間の有効次元を小さくすることで,アクションとマクロアクションの関係を利用して信用割当機構を改善する新たな正規化項を提案する。
この用語は、メタ学習と所望のポリシーの学習を併用した類似性行列に依拠する。
我々は,AtariゲームとStreetFighter II環境におけるマクロアクションに対する我々の戦略を実証的に検証した。
その結果,全環境におけるレインボー-DQNベースラインの大幅な改善が認められた。
さらに、マクロアクションの類似性は関連する環境に伝達可能であることを示す。
我々は、この研究が、行動空間上の類似性を考慮した幾何学をどのように活用して信用割当と探索を改善し、学習をより効果的にするかを理解するための、小さなが重要なステップであると信じている。
関連論文リスト
- Hierarchical Meta-Reinforcement Learning via Automated Macro-Action Discovery [4.0847743592744905]
複雑なタスクや高次元タスクにまたがってパフォーマンスポリシーを学ぶことは依然として困難である。
本稿では,1)タスク表現の学習,2)タスクに依存しないマクロアクションの自動発見,3)プリミティブアクションの学習という3つの階層レベルの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-16T16:15:36Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - No Prior Mask: Eliminate Redundant Action for Deep Reinforcement
Learning [13.341525656639583]
大規模なアクションスペースは、実世界で強化学習メソッドをデプロイする上での基本的な障害のひとつです。
我々はNo Prior Mask (NPM) という新しい冗長な動作フィルタリング機構を提案する。
論文 参考訳(メタデータ) (2023-12-11T09:56:02Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Endogenous Macrodynamics in Algorithmic Recourse [52.87956177581998]
対実説明(CE)とアルゴリズム・リコース(AR)に関する既存の研究は、静的環境における個人に主に焦点を当ててきた。
既存の方法論の多くは、一般化されたフレームワークによってまとめて記述できることを示す。
次に、既存のフレームワークは、グループレベルでの言論の内在的ダイナミクスを研究する際にのみ明らかとなるような、隠された対外的関係のコストを考慮に入れていないと論じる。
論文 参考訳(メタデータ) (2023-08-16T07:36:58Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z) - Efficient Black-Box Planning Using Macro-Actions with Focused Effects [35.688161278362735]
ヒューリスティックスは検索をより効率的にするが、ブラックボックスの計画にはゴールを意識する。
我々は、ゴール数をより正確にするマクロアクションを発見することによって、この制限を克服する方法を示す。
論文 参考訳(メタデータ) (2020-04-28T02:13:12Z) - Macro-Action-Based Deep Multi-Agent Reinforcement Learning [17.73081797556005]
本稿では,分散型および集中型マクロアクション値関数を学習するための2つのDeep Q-Network (DQN) に基づく手法を提案する。
ベンチマーク問題とより大きな領域の評価は、プリミティブアクションよりもマクロアクションによる学習の利点を示す。
論文 参考訳(メタデータ) (2020-04-18T15:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。