論文の概要: Optimistic ε-Greedy Exploration for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.03506v1
- Date: Wed, 05 Feb 2025 12:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:26.092606
- Title: Optimistic ε-Greedy Exploration for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型多エージェント強化学習のための最適化ε-Greedy探索
- Authors: Ruoning Zhang, Siying Wang, Wenyu Chen, Yang Zhou, Zhitong Zhao, Zixuan Zhang, Ruijie Zhang,
- Abstract要約: 評価値推定の精度向上に着目したオプティスティックな$epsilon$-Greedy Explorationを提案する。
本研究では,探索中の最適動作とサンプル動作を推定するための楽観的な更新ネットワークを導入し,探索中に$epsilon$の確率で分布からサンプル動作を抽出する。
様々な環境での実験結果から、Optimistic $epsilon$-Greedy Explorationはアルゴリズムが最適以下の解を効果的に阻止することを示した。
- 参考スコア(独自算出の注目度): 16.049852176246038
- License:
- Abstract: The Centralized Training with Decentralized Execution (CTDE) paradigm is widely used in cooperative multi-agent reinforcement learning. However, due to the representational limitations of traditional monotonic value decomposition methods, algorithms can underestimate optimal actions, leading policies to suboptimal solutions. To address this challenge, we propose Optimistic $\epsilon$-Greedy Exploration, focusing on enhancing exploration to correct value estimations. The underestimation arises from insufficient sampling of optimal actions during exploration, as our analysis indicated. We introduce an optimistic updating network to identify optimal actions and sample actions from its distribution with a probability of $\epsilon$ during exploration, increasing the selection frequency of optimal actions. Experimental results in various environments reveal that the Optimistic $\epsilon$-Greedy Exploration effectively prevents the algorithm from suboptimal solutions and significantly improves its performance compared to other algorithms.
- Abstract(参考訳): 分散実行による集中訓練(CTDE)パラダイムは、協調型マルチエージェント強化学習において広く用いられている。
しかし、従来の単調値分解法の表現的限界のため、アルゴリズムは最適動作を過小評価し、準最適解へのポリシーを導くことができる。
この課題に対処するため,我々はOptimistic $\epsilon$-Greedy Explorationを提案する。
この過小評価は、探索中の最適な行動のサンプリングが不十分であることから生じる。
本研究では,最適行動の選択頻度を増大させるため,探索期間中に$\epsilon$の確率で最適な行動とサンプル動作を特定するための楽観的な更新ネットワークを導入する。
様々な環境における実験結果から,Optimistic $\epsilon$-Greedy Explorationはアルゴリズムの最適下解を効果的に防止し,他のアルゴリズムと比較して性能を著しく向上させることがわかった。
関連論文リスト
- Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Batched Bayesian optimization with correlated candidate uncertainties [44.38372821900645]
純粋に活用する qPO (multipoint of Optimality) による離散最適化のための獲得戦略を提案する。
本研究では, 大規模化学ライブラリのモデル誘導探索に適用し, バッチ化ベイズ最適化における最先端手法と同等以上の性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-08T20:13:12Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Mastering the exploration-exploitation trade-off in Bayesian
Optimization [0.2538209532048867]
取得関数は、探索とエクスプロイトの間のバランスを評価するための次のソリューションの選択を駆動する。
本稿では,爆発的選択と搾取的選択のトレードオフを適応的に習得する,新たな獲得機能を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:19:03Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - Resource Aware Multifidelity Active Learning for Efficient Optimization [0.8717253904965373]
本稿では,ブラックボックス関数の最適化を高速化するためのリソース・アウェア・アクティブ・ラーニング(RAAL)戦略を紹介する。
RAAL戦略は最適化タスクの大幅な高速化を可能にするために、最適に複数のポイントを投入する。
論文 参考訳(メタデータ) (2020-07-09T10:01:32Z) - Upper Trust Bound Feasibility Criterion for Mixed Constrained Bayesian
Optimization with Application to Aircraft Design [41.74498230885008]
我々は、より正確に混合された制約問題を解決するために、いわゆる超効率的なグローバル最適化アルゴリズムを適用する。
本研究は, 数値実験におけるアプローチの可能性を示すものである。
論文 参考訳(メタデータ) (2020-05-11T12:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。