論文の概要: Handling Large Discrete Action Spaces via Dynamic Neighborhood
Construction
- arxiv url: http://arxiv.org/abs/2305.19891v1
- Date: Wed, 31 May 2023 14:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:00:48.175758
- Title: Handling Large Discrete Action Spaces via Dynamic Neighborhood
Construction
- Title(参考訳): 動的近傍構築による大規模離散行動空間の扱い
- Authors: Fabian Akkerman, Julius Luy, Wouter van Heeswijk, Maximilian Schiffer
- Abstract要約: 大規模離散的な行動空間は、強化学習法における中心的な課題である。
本研究では,動的に離散近傍を構築して連続プロキシをマッピングする動的近傍構築法を提案する。
以上の結果から, DNCはより計算効率が高く, 最先端の手法に適合し, 性能が向上することが示された。
- 参考スコア(独自算出の注目度): 3.119859292303397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large discrete action spaces remain a central challenge for reinforcement
learning methods. Such spaces are encountered in many real-world applications,
e.g., recommender systems, multi-step planning, and inventory replenishment.
The mapping of continuous proxies to discrete actions is a promising paradigm
for handling large discrete action spaces. Existing continuous-to-discrete
mapping approaches involve searching for discrete neighboring actions in a
static pre-defined neighborhood, which requires discrete neighbor lookups
across the entire action space. Hence, scalability issues persist. To mitigate
this drawback, we propose a novel Dynamic Neighborhood Construction (DNC)
method, which dynamically constructs a discrete neighborhood to map the
continuous proxy, thus efficiently exploiting the underlying action space. We
demonstrate the robustness of our method by benchmarking it against three
state-of-the-art approaches designed for large discrete action spaces across
three different environments. Our results show that DNC matches or outperforms
state-of-the-art approaches while being more computationally efficient.
Furthermore, our method scales to action spaces that so far remained
computationally intractable for existing methodologies.
- Abstract(参考訳): 大規模離散的な行動空間は、強化学習法の中心的な課題である。
このような空間は、例えばレコメンダシステム、多段階計画、在庫補充など、現実世界の多くのアプリケーションで遭遇する。
連続プロキシの離散アクションへのマッピングは、大きな離散アクション空間を扱うための有望なパラダイムである。
既存の連続から離散へのマッピングアプローチでは、静的に事前定義された近傍で個別に隣接したアクションを探索する。
したがって、スケーラビリティの問題は継続する。
この欠点を軽減するために,動的近傍構築法 (DNC) を提案する。この手法は離散近傍を動的に構築し,連続的なプロキシをマッピングし,基礎となる行動空間を効率的に活用する。
3つの異なる環境にまたがる大規模離散的行動空間のために設計された最先端の3つのアプローチに対して,本手法のロバスト性を示す。
以上の結果から,dncは計算効率が向上しつつ,最先端の手法に匹敵することを示した。
さらに,本手法は,既存の手法では計算的に難解な動作空間にスケールする。
関連論文リスト
- Offline Reinforcement Learning With Combinatorial Action Spaces [12.904199719046968]
強化学習問題はしばしば、複数のサブアクションの同時実行によって生じる大きなアクション空間を伴う。
サブアクションの依存関係を効果的に把握し,各タイミングで少数のアクションのみを評価することを学習することで,大規模空間にスケールする分岐値推定(BVE)を提案する。
実験の結果,BVEは動作空間の幅にまたがって最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-28T15:49:46Z) - Grounding Multimodal Large Language Models in Actions [65.88208317380793]
我々はMLLMを異なる実施形態とその関連する行動空間にベストグラウンドする方法について研究する。
連続的な動作に対しては、学習されたトークン化が十分なモデリング精度を実現することが示される。
離散的な動作に対して、これらの動作をMLLMのネイティブな出力トークン空間と意味的に整合させることが、最も高いパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-12T06:12:04Z) - Accelerating Search-Based Planning for Multi-Robot Manipulation by Leveraging Online-Generated Experiences [20.879194337982803]
MAPF(Multi-Agent Path-Finding)アルゴリズムは、離散的な2Dドメインで保証され、厳密な保証を提供する。
本稿では,その反復的かつ漸進的な性質を活用して,競合に基づく探索アルゴリズムを高速化する手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T20:31:07Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Continuous Control with Action Quantization from Demonstrations [35.44893918778709]
強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
論文 参考訳(メタデータ) (2021-10-19T17:59:04Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Generalising Discrete Action Spaces with Conditional Action Trees [0.0]
条件付きアクションツリーを2つの主な目的で紹介します。
離散的なアクション空間を持つ環境から、RTSスタイルのゲームでよく見られる大きなアクション空間を持つ環境まで、いくつかの概念実証実験を示す。
論文 参考訳(メタデータ) (2021-04-15T08:10:18Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。