論文の概要: Offline Reinforcement Learning With Combinatorial Action Spaces
- arxiv url: http://arxiv.org/abs/2410.21151v1
- Date: Mon, 28 Oct 2024 15:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:39.457119
- Title: Offline Reinforcement Learning With Combinatorial Action Spaces
- Title(参考訳): Y Combinatorial Action Spacesによるオフライン強化学習
- Authors: Matthew Landers, Taylor W. Killian, Hugo Barnes, Thomas Hartvigsen, Afsaneh Doryab,
- Abstract要約: 強化学習問題はしばしば、複数のサブアクションの同時実行によって生じる大きなアクション空間を伴う。
サブアクションの依存関係を効果的に把握し,各タイミングで少数のアクションのみを評価することを学習することで,大規模空間にスケールする分岐値推定(BVE)を提案する。
実験の結果,BVEは動作空間の幅にまたがって最先端の手法より優れていることがわかった。
- 参考スコア(独自算出の注目度): 12.904199719046968
- License:
- Abstract: Reinforcement learning problems often involve large action spaces arising from the simultaneous execution of multiple sub-actions, resulting in combinatorial action spaces. Learning in combinatorial action spaces is difficult due to the exponential growth in action space size with the number of sub-actions and the dependencies among these sub-actions. In offline settings, this challenge is compounded by limited and suboptimal data. Current methods for offline learning in combinatorial spaces simplify the problem by assuming sub-action independence. We propose Branch Value Estimation (BVE), which effectively captures sub-action dependencies and scales to large combinatorial spaces by learning to evaluate only a small subset of actions at each timestep. Our experiments show that BVE outperforms state-of-the-art methods across a range of action space sizes.
- Abstract(参考訳): 強化学習の問題は、複数のサブアクションの同時実行によって生じる大きなアクション空間が伴うことが多く、結果として複合的なアクション空間が生じる。
組合せ作用空間での学習は、サブアクションの数とこれらのサブアクション間の依存関係が指数関数的に増加するために困難である。
オフライン設定では、この課題は制限付きおよびサブ最適データによって複雑化される。
組合せ空間におけるオフライン学習の現在の方法は、サブアクション独立性を仮定することで問題を単純化する。
本稿では,サブアクションの依存関係を効果的に把握し,各タイミングで少数のアクションのみを評価することを学習することで,大規模な組合せ空間にスケールする分岐値推定(BVE)を提案する。
実験の結果,BVEは動作空間の幅にまたがって最先端の手法より優れていることがわかった。
関連論文リスト
- Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces [52.649077293256795]
連続オフライン強化学習(CORL)は拡散に基づく生涯学習システムにおいて顕著な能力を示した。
本稿では,Vector-Quantized Continual diffuser(VQ-CD)を提案する。
論文 参考訳(メタデータ) (2024-10-21T07:13:45Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Dynamic Interval Restrictions on Action Spaces in Deep Reinforcement
Learning for Obstacle Avoidance [0.0]
この論文では、動的障害を伴うパスフィンディングにおいて発生する間隔制限の問題について考察する。
最近の研究は、間隔の数について強い仮定で学習し、凸部分集合に限られている。
パラメータ化強化学習とConstraintNetを拡張して任意の間隔で処理することで,環境の状態に依存しない2つのアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-13T09:13:13Z) - Dynamic Neighborhood Construction for Structured Large Discrete Action
Spaces [2.285821277711785]
大規模離散行動空間(LDAS)は、強化学習における中心的な課題である。
既存のソリューションアプローチでは、最大数百万のアクションで非構造化LDASを処理できる。
本研究では, SLDAS の新たな活用パラダイムである Dynamic Neighborhood Construction (DNC) を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:26:14Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Hierarchical Compositional Representations for Few-shot Action
Recognition [51.288829293306335]
本稿では,新しい階層型合成表現(HCR)学習手法を提案する。
複雑なアクションを、慎重に設計された階層的クラスタリングによって、いくつかのサブアクションに分割する。
また、輸送問題において、サブアクション表現の観点から、ビデオサンプル間の類似度を測定するために、アースモーバー距離(Earth Mover's Distance)を採用した。
論文 参考訳(メタデータ) (2022-08-19T16:16:59Z) - Deep Multi-Agent Reinforcement Learning with Hybrid Action Spaces based
on Maximum Entropy [0.0]
本稿では,ハイブリッドアクション空間におけるマルチエージェント問題に対処するために,深層マルチエージェントハイブリッド・アクター・クリティカル(MAHSAC)を提案する。
このアルゴリズムは、中央集権的なトレーニングであるが、分散実行(CTDE)パラダイムに従い、ハイブリッドアクション空間問題を扱うためにソフトアクター・クリティカルアルゴリズム(SAC)を拡張している。
私たちの経験は、連続的な観察と離散的なアクション空間を持つ、簡単なマルチエージェント粒子の世界と、いくつかの基本的なシミュレートされた物理学で動いています。
論文 参考訳(メタデータ) (2022-06-10T13:52:59Z) - Generalising Discrete Action Spaces with Conditional Action Trees [0.0]
条件付きアクションツリーを2つの主な目的で紹介します。
離散的なアクション空間を持つ環境から、RTSスタイルのゲームでよく見られる大きなアクション空間を持つ環境まで、いくつかの概念実証実験を示す。
論文 参考訳(メタデータ) (2021-04-15T08:10:18Z) - LASER: Learning a Latent Action Space for Efficient Reinforcement
Learning [41.53297694894669]
本稿では,効率的な強化学習のための潜在行動空間の学習方法であるLASERを提案する。
学習したアクション空間マニホールドの可視化で観察したように、アクション空間のより良いアライメントからタスクスペースへの元のアクションスペースと比較して、サンプル効率が向上しました。
論文 参考訳(メタデータ) (2021-03-29T17:40:02Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。