論文の概要: REValueD: Regularised Ensemble Value-Decomposition for Factorisable
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2401.08850v1
- Date: Tue, 16 Jan 2024 21:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:51:25.872357
- Title: REValueD: Regularised Ensemble Value-Decomposition for Factorisable
Markov Decision Processes
- Title(参考訳): reValueD: 決定可能なマルコフ決定プロセスのための正規化アンサンブル値分解
- Authors: David Ireland and Giovanni Montana
- Abstract要約: 離散アクション強化学習アルゴリズムは、高次元の離散アクション空間を持つタスクにしばしば干渉する。
本研究は、値分解の効果を深く掘り下げ、対象の分散を増幅することを明らかにする。
我々は、ある次元における探索的行動が他の次元における最適な行動の価値に与える影響を軽減するのに役立つ正規化損失を導入する。
我々の新しいアルゴリズムREValueDはDeepMind Control Suiteタスクの離散バージョンでテストされ、優れた性能を示している。
- 参考スコア(独自算出の注目度): 7.2129390689756185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete-action reinforcement learning algorithms often falter in tasks with
high-dimensional discrete action spaces due to the vast number of possible
actions. A recent advancement leverages value-decomposition, a concept from
multi-agent reinforcement learning, to tackle this challenge. This study delves
deep into the effects of this value-decomposition, revealing that whilst it
curtails the over-estimation bias inherent to Q-learning algorithms, it
amplifies target variance. To counteract this, we present an ensemble of
critics to mitigate target variance. Moreover, we introduce a regularisation
loss that helps to mitigate the effects that exploratory actions in one
dimension can have on the value of optimal actions in other dimensions. Our
novel algorithm, REValueD, tested on discretised versions of the DeepMind
Control Suite tasks, showcases superior performance, especially in the
challenging humanoid and dog tasks. We further dissect the factors influencing
REValueD's performance, evaluating the significance of the regularisation loss
and the scalability of REValueD with increasing sub-actions per dimension.
- Abstract(参考訳): 離散アクション強化学習アルゴリズムは、起こりうる多くのアクションのために、高次元の離散アクション空間を持つタスクに干渉することが多い。
最近の進歩は、この課題に取り組むために、マルチエージェント強化学習の概念であるバリュー分解を活用している。
この研究は、q-learningアルゴリズムに固有の過剰推定バイアスを削減しながら、ターゲットの分散を増幅する、この値分解の効果を深く掘り下げる。
これに対抗するために,対象のばらつきを緩和するための批評家のアンサンブルを提案する。
さらに, ある次元における探索行動が他の次元における最適な行動の値に与える影響を軽減するために, 正規化損失を導入する。
新しいアルゴリズムであるrevaluedは、deepmindコントロールスイートタスクの非正規化バージョン上でテストされ、特にヒューマノイドタスクやドッグタスクにおいて優れたパフォーマンスを示します。
さらに,revaluedの性能に影響を与える要因について検討し,レギュライゼーション損失の意義と,次元ごとのサブアクションの増加による再評価のスケーラビリティを評価した。
関連論文リスト
- Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Towards Safe Reinforcement Learning via Constraining Conditional
Value-at-Risk [30.229387511344456]
本稿では,CVaR を所定の閾値以下に保ち,リスクに敏感な制約付き最適化問題を定式化する CVaR-Proximal-Policy-Optimization (CPPO) の新たな強化学習アルゴリズムを提案する。
実験の結果,CPPOは高い累積報酬を達成し,観察および遷移障害に対してより堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-06-09T11:57:54Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Hierarchical and Efficient Learning for Person Re-Identification [19.172946887940874]
階層的大域的, 部分的, 回復的特徴を複数の損失結合の監督の下で学習する, 階層的, 効率的なネットワーク(HENet)を提案する。
また,RPE (Random Polygon Erasing) と呼ばれる新しいデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-18T15:45:25Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。