論文の概要: Dynamic Neighborhood Construction for Structured Large Discrete Action
Spaces
- arxiv url: http://arxiv.org/abs/2305.19891v4
- Date: Tue, 27 Feb 2024 10:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 23:01:23.263377
- Title: Dynamic Neighborhood Construction for Structured Large Discrete Action
Spaces
- Title(参考訳): 大規模離散行動空間の動的近傍構築
- Authors: Fabian Akkerman, Julius Luy, Wouter van Heeswijk, Maximilian Schiffer
- Abstract要約: 大規模離散行動空間(LDAS)は、強化学習における中心的な課題である。
既存のソリューションアプローチでは、最大数百万のアクションで非構造化LDASを処理できる。
本研究では, SLDAS の新たな活用パラダイムである Dynamic Neighborhood Construction (DNC) を提案する。
- 参考スコア(独自算出の注目度): 2.285821277711785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large discrete action spaces (LDAS) remain a central challenge in
reinforcement learning. Existing solution approaches can handle unstructured
LDAS with up to a few million actions. However, many real-world applications in
logistics, production, and transportation systems have combinatorial action
spaces, whose size grows well beyond millions of actions, even on small
instances. Fortunately, such action spaces exhibit structure, e.g., equally
spaced discrete resource units. With this work, we focus on handling structured
LDAS (SLDAS) with sizes that cannot be handled by current benchmarks: we
propose Dynamic Neighborhood Construction (DNC), a novel exploitation paradigm
for SLDAS. We present a scalable neighborhood exploration heuristic that
utilizes this paradigm and efficiently explores the discrete neighborhood
around the continuous proxy action in structured action spaces with up to
$10^{73}$ actions. We demonstrate the performance of our method by benchmarking
it against three state-of-the-art approaches designed for large discrete action
spaces across two distinct environments. Our results show that DNC matches or
outperforms state-of-the-art approaches while being computationally more
efficient. Furthermore, our method scales to action spaces that so far remained
computationally intractable for existing methodologies.
- Abstract(参考訳): 大規模離散行動空間(LDAS)は、強化学習における中心的な課題である。
既存のソリューションアプローチでは、最大数百万のアクションで非構造化LDASを処理できる。
しかし、物流、生産、輸送システムにおける現実世界のアプリケーションの多くは、小さなインスタンスでも数百万以上のアクションを展開する複合的なアクションスペースを持っている。
幸いなことに、そのような作用空間は構造、例えば等間隔の離散リソース単位を示す。
本稿では,現在のベンチマークでは処理できないサイズで構造化lda(sldas)を扱うことに焦点を当て,sldasの新しい活用パラダイムであるdynamic neighborhood construction(dnc)を提案する。
本稿では,このパラダイムを応用したスケーラブルな近傍探索ヒューリスティックを提案し,最大10〜73ドルのアクションを持つ構造化された行動空間における連続的プロキシアクションの周囲の離散的近傍を効率的に探索する。
2つの異なる環境にまたがる大きな離散的アクション空間向けに設計された3つの最先端のアプローチに対してベンチマークすることで,本手法の性能を実証する。
以上の結果から,dncは計算効率が向上しつつ,最先端の手法に匹敵することを示した。
さらに,本手法は,既存の手法では計算的に難解な動作空間にスケールする。
関連論文リスト
- Offline Reinforcement Learning With Combinatorial Action Spaces [12.904199719046968]
強化学習問題はしばしば、複数のサブアクションの同時実行によって生じる大きなアクション空間を伴う。
サブアクションの依存関係を効果的に把握し,各タイミングで少数のアクションのみを評価することを学習することで,大規模空間にスケールする分岐値推定(BVE)を提案する。
実験の結果,BVEは動作空間の幅にまたがって最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-28T15:49:46Z) - Grounding Multimodal Large Language Models in Actions [65.88208317380793]
我々はMLLMを異なる実施形態とその関連する行動空間にベストグラウンドする方法について研究する。
連続的な動作に対しては、学習されたトークン化が十分なモデリング精度を実現することが示される。
離散的な動作に対して、これらの動作をMLLMのネイティブな出力トークン空間と意味的に整合させることが、最も高いパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-12T06:12:04Z) - Accelerating Search-Based Planning for Multi-Robot Manipulation by Leveraging Online-Generated Experiences [20.879194337982803]
MAPF(Multi-Agent Path-Finding)アルゴリズムは、離散的な2Dドメインで保証され、厳密な保証を提供する。
本稿では,その反復的かつ漸進的な性質を活用して,競合に基づく探索アルゴリズムを高速化する手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T20:31:07Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Continuous Control with Action Quantization from Demonstrations [35.44893918778709]
強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
論文 参考訳(メタデータ) (2021-10-19T17:59:04Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Generalising Discrete Action Spaces with Conditional Action Trees [0.0]
条件付きアクションツリーを2つの主な目的で紹介します。
離散的なアクション空間を持つ環境から、RTSスタイルのゲームでよく見られる大きなアクション空間を持つ環境まで、いくつかの概念実証実験を示す。
論文 参考訳(メタデータ) (2021-04-15T08:10:18Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。