論文の概要: An Advantage-based Optimization Method for Reinforcement Learning in Large Action Space
- arxiv url: http://arxiv.org/abs/2412.12605v1
- Date: Tue, 17 Dec 2024 07:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:58.771443
- Title: An Advantage-based Optimization Method for Reinforcement Learning in Large Action Space
- Title(参考訳): 大規模行動空間における強化学習のためのアドバンテージに基づく最適化手法
- Authors: Hai Lin, Cheng Huang, Zhihong Chen,
- Abstract要約: 本稿ではアドバンテージ・ブランチ・デューリング Q-network (ABQ) という利点に基づく最適化手法とアルゴリズムを提案する。
ABQは各次元のアクション値を調整するためのベースライン機構を組み込み、異なるサブアクション間の有利な関係を活用する。
実験の結果、ABQはBDQを上回っ、HalfCheetah、Ant、Humanoid環境において3%、171%、84%の累積報酬を達成している。
- 参考スコア(独自算出の注目度): 17.956561845984353
- License:
- Abstract: Reinforcement learning tasks in real-world scenarios often involve large, high-dimensional action spaces, leading to challenges such as convergence difficulties, instability, and high computational complexity. It is widely acknowledged that traditional value-based reinforcement learning algorithms struggle to address these issues effectively. A prevalent approach involves generating independent sub-actions within each dimension of the action space. However, this method introduces bias, hindering the learning of optimal policies. In this paper, we propose an advantage-based optimization method and an algorithm named Advantage Branching Dueling Q-network (ABQ). ABQ incorporates a baseline mechanism to tune the action value of each dimension, leveraging the advantage relationship across different sub-actions. With this approach, the learned policy can be optimized for each dimension. Empirical results demonstrate that ABQ outperforms BDQ, achieving 3%, 171%, and 84% more cumulative rewards in HalfCheetah, Ant, and Humanoid environments, respectively. Furthermore, ABQ exhibits competitive performance when compared against two continuous action benchmark algorithms, DDPG and TD3.
- Abstract(参考訳): 実世界のシナリオにおける強化学習タスクは、しばしば大きな高次元のアクション空間を伴い、収束困難、不安定性、高い計算複雑性などの課題に繋がる。
従来の価値に基づく強化学習アルゴリズムがこれらの問題に効果的に取り組むのに苦労していることは広く認識されている。
代表的なアプローチは、アクション空間の各次元内で独立したサブアクションを生成することである。
しかし、この手法はバイアスを導入し、最適な政策の学習を妨げる。
本稿では,Advantage Branching Dueling Q-network (ABQ) と呼ばれる利点に基づく最適化手法とアルゴリズムを提案する。
ABQは各次元のアクション値を調整するためのベースライン機構を組み込み、異なるサブアクション間の有利な関係を活用する。
このアプローチでは、学習したポリシーを各次元に最適化することができる。
実験の結果、ABQはBDQを上回っ、HalfCheetah、Ant、Humanoidの環境において、それぞれ3%、171%、および84%の累積報酬を達成している。
さらに、ABQは、DDPGとTD3の2つの連続アクションベンチマークアルゴリズムと比較すると、競合性能を示す。
関連論文リスト
- AUCSeg: AUC-oriented Pixel-level Long-tail Semantic Segmentation [88.50256898176269]
画素レベルのAUC損失関数を開発し,アルゴリズムの一般化能力に関する依存性グラフに基づく理論的解析を行う。
また、重要なメモリ需要を管理するために、Tail-Classes Memory Bankを設計する。
論文 参考訳(メタデータ) (2024-09-30T15:31:02Z) - Analyzing design principles for competitive evolution strategies in constrained search spaces [0.0]
2018年のIEEE Congress of Evolutionary Computationの文脈では、制約付き最適化のためのマトリックス適応進化戦略が顕著に成功した。
$epsilon$MAg-ESアルゴリズムは、高次元において最も成功した参加者と見なすことができる。
本稿では,特定のアルゴリズムコンポーネントの性能貢献に関する知見を提供するために,$epsilon$MAg-ESの動作原理を実証的に分析する。
論文 参考訳(メタデータ) (2024-05-08T12:20:10Z) - Federated Compositional Deep AUC Maximization [58.25078060952361]
本研究では,曲線(AUC)のスコアを直接最適化することにより,不均衡なデータに対する新しいフェデレート学習法を開発した。
私たちの知る限りでは、このような好ましい理論的な結果を達成した最初の作品である。
論文 参考訳(メタデータ) (2023-04-20T05:49:41Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Federated Learning via Inexact ADMM [46.99210047518554]
本稿では,乗算器の不正確な交互方向法(ADMM)を提案する。
どちらも通信効率が高く、ストラグラー効果と戦うことができ、穏やかな条件下で収束する。
フェデレート学習のためのいくつかの最先端アルゴリズムと比較して高い数値性能を持つ。
論文 参考訳(メタデータ) (2022-04-22T09:55:33Z) - An Improved Reinforcement Learning Algorithm for Learning to Branch [12.27934038849211]
ブランチ・アンド・バウンド(B&B)は最適化の一般的な方法である。
本稿では,新しい強化学習に基づくB&Bアルゴリズムを提案する。
提案アルゴリズムの性能を3つの公開研究ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-01-17T04:50:11Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。