論文の概要: Breaking the Grid: Distance-Guided Reinforcement Learning in Large Discrete and Hybrid Action Spaces
- arxiv url: http://arxiv.org/abs/2602.08616v1
- Date: Mon, 09 Feb 2026 13:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.238486
- Title: Breaking the Grid: Distance-Guided Reinforcement Learning in Large Discrete and Hybrid Action Spaces
- Title(参考訳): グリッドを破る: 離散的かつハイブリッドな行動空間における距離誘導型強化学習
- Authors: Heiko Hoppe, Fabian Akkerman, Wouter van Heeswijk, Maximilian Schiffer,
- Abstract要約: 距離誘導型強化学習(DGRL)を提案し,最大10$text20$アクションを持つ空間における効率的なRLを実現する。
定常および不規則に構造化された環境における最先端ベンチマークに対して,最大66%の性能向上を示す。
- 参考スコア(独自算出の注目度): 4.395837214164745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning is increasingly applied to logistics, scheduling, and recommender systems, but standard algorithms struggle with the curse of dimensionality in such large discrete action spaces. Existing algorithms typically rely on restrictive grid-based structures or computationally expensive nearest-neighbor searches, limiting their effectiveness in high-dimensional or irregularly structured domains. We propose Distance-Guided Reinforcement Learning (DGRL), combining Sampled Dynamic Neighborhoods (SDN) and Distance-Based Updates (DBU) to enable efficient RL in spaces with up to 10$^\text{20}$ actions. Unlike prior methods, SDN leverages a semantic embedding space to perform stochastic volumetric exploration, provably providing full support over a local trust region. Complementing this, DBU transforms policy optimization into a stable regression task, decoupling gradient variance from action space cardinality and guaranteeing monotonic policy improvement. DGRL naturally generalizes to hybrid continuous-discrete action spaces without requiring hierarchical dependencies. We demonstrate performance improvements of up to 66% against state-of-the-art benchmarks across regularly and irregularly structured environments, while simultaneously improving convergence speed and computational complexity.
- Abstract(参考訳): 強化学習は、ロジスティクス、スケジューリング、レコメンデーションシステムにますます適用されているが、標準的なアルゴリズムは、このような大きな離散的な行動空間における次元性の呪いに苦しむ。
既存のアルゴリズムは、通常、制限的なグリッドベースの構造や計算コストのかかる最寄りの探索に依存し、高次元または不規則に構造化された領域での有効性を制限している。
DGRL(Distance-Guided Reinforcement Learning)を提案する。Sampred Dynamic Neighborhoods (SDN) と Distance-Based Updates (DBU) を組み合わせて,最大10$^\text{20}$アクションを持つ空間における効率的なRLを実現する。
従来の方法とは異なり、SDNはセマンティックな埋め込み空間を利用して確率的ボリューム探索を行い、ローカルな信頼領域に対する完全なサポートを確実に提供する。
これを補完し、DBUは政策最適化を安定回帰タスクに変換し、作用空間の濃度から勾配の分散を分離し、単調な政策改善を保証する。
DGRLは自然に階層的依存関係を必要としないハイブリッド連続離散作用空間に一般化する。
コンバージェンス速度と計算複雑性を同時に改善しつつ、定常的および不規則に構造化された環境における最先端ベンチマークに対して最大66%の性能向上を示す。
関連論文リスト
- OCTOPUS: Enhancing the Spatial-Awareness of Vision SSMs with Multi-Dimensional Scans and Traversal Selection [20.717476762904038]
我々は,大域的コンテキストと画像内の局所空間構造の両方を保存する新しいアーキテクチャであるOCTOPUSを紹介する。
OCTOPUSは8つの主方向に沿って個別に再起し、水平方向、垂直方向、対角方向を前方または後方に進む。
分類とセグメンテーションのベンチマークでは、OCTOPUSは境界保存と領域の整合性において顕著な改善を示した。
論文 参考訳(メタデータ) (2026-01-31T21:12:59Z) - CHDP: Cooperative Hybrid Diffusion Policies for Reinforcement Learning in Parameterized Action Space [9.192754462575218]
ハイブリッド行動空間問題を解決するために,textbfCooperative Hybrid Diffusion Policies (CHDP) フレームワークを提案する。
CHDPは、それぞれ離散的および連続的な拡散ポリシーを利用する2つの協調エージェントを採用している。
挑戦的なハイブリッドアクションベンチマークでは、CHDPは最先端の手法を最大19.3%の成功率で上回っている。
論文 参考訳(メタデータ) (2026-01-09T09:50:47Z) - Scaling Online Distributionally Robust Reinforcement Learning: Sample-Efficient Guarantees with General Function Approximation [18.596128578766958]
分散ロバストなRL(DR-RL)は、不確実な遷移ダイナミクスの集合に対して最悪の性能を最適化することでこの問題に対処する。
本稿では,環境との相互作用によって最適なロバストポリシーを純粋に学習する一般関数近似を用いたオンラインDR-RLアルゴリズムを提案する。
本研究では,全変量不確実性セットの下でほぼ最適準線形後悔境界を確立する理論解析を行い,本手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-12-22T02:12:04Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Decentralized Federated Reinforcement Learning for User-Centric Dynamic
TFDD Control [37.54493447920386]
非対称かつ不均一なトラフィック要求を満たすための学習に基づく動的時間周波数分割二重化(D-TFDD)方式を提案する。
分散化された部分観測可能なマルコフ決定過程(Dec-POMDP)として問題を定式化する。
本稿では,グローバルリソースを分散的に最適化するために,Wolpertinger Deep Deterministic Policy gradient (FWDDPG)アルゴリズムという,連合強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-04T07:39:21Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Distributed Multi-agent Meta Learning for Trajectory Design in Wireless
Drone Networks [151.27147513363502]
本稿では,動的無線ネットワーク環境で動作するエネルギー制約型ドローン群に対する軌道設計の問題点について検討する。
値ベース強化学習(VDRL)ソリューションとメタトレイン機構を提案する。
論文 参考訳(メタデータ) (2020-12-06T01:30:12Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。