論文の概要: Experience-replay Innovative Dynamics
- arxiv url: http://arxiv.org/abs/2501.12199v1
- Date: Tue, 21 Jan 2025 15:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:19:29.076994
- Title: Experience-replay Innovative Dynamics
- Title(参考訳): 経験-再生イノベーティブダイナミクス
- Authors: Tuo Zhang, Leonardo Stella, Julian Barreiro Gomez,
- Abstract要約: 我々は,リビジョンプロトコルを調整可能なハイパーパラメータとして組み込んだ,新しい経験的リプレイベースMARLアルゴリズムを開発した。
我々の貢献は、MARLアルゴリズムの理論的保証を複製子力学を超えて拡張できるフレームワークを提供する。
- 参考スコア(独自算出の注目度): 3.994274780419491
- License:
- Abstract: Despite its groundbreaking success, multi-agent reinforcement learning (MARL) still suffers from instability and nonstationarity. Replicator dynamics, the most well-known model from evolutionary game theory (EGT), provide a theoretical framework for the convergence of the trajectories to Nash equilibria and, as a result, have been used to ensure formal guarantees for MARL algorithms in stable game settings. However, they exhibit the opposite behavior in other settings, which poses the problem of finding alternatives to ensure convergence. In contrast, innovative dynamics, such as the Brown-von Neumann-Nash (BNN) or Smith, result in periodic trajectories with the potential to approximate Nash equilibria. Yet, no MARL algorithms based on these dynamics have been proposed. In response to this challenge, we develop a novel experience replay-based MARL algorithm that incorporates revision protocols as tunable hyperparameters. We demonstrate, by appropriately adjusting the revision protocols, that the behavior of our algorithm mirrors the trajectories resulting from these dynamics. Importantly, our contribution provides a framework capable of extending the theoretical guarantees of MARL algorithms beyond replicator dynamics. Finally, we corroborate our theoretical findings with empirical results.
- Abstract(参考訳): 画期的な成功にもかかわらず、マルチエージェント強化学習(MARL)はまだ不安定性と非定常性に悩まされている。
進化ゲーム理論(EGT)の最もよく知られたモデルであるReplicator dynamicsは、軌道をナッシュ平衡に収束させる理論的枠組みを提供し、結果として、安定したゲーム設定におけるMARLアルゴリズムの正式な保証を保証するために使用されている。
しかし、それらは反対の振る舞いを他の設定で示しており、収束を保証する代替手段を見つけるという問題を引き起こしている。
対照的に、ブラウン・ヴォン・ノイマン・ナッシュ (BNN) やスミス (Smith) のような革新的な力学は、ナッシュ平衡を近似するポテンシャルを持つ周期軌道をもたらす。
しかし、これらの力学に基づくMARLアルゴリズムは提案されていない。
この課題に対応するために,リビジョンプロトコルを調整可能なハイパーパラメータとして組み込んだ,新しい経験的リプレイベースMARLアルゴリズムを開発した。
修正プロトコルを適切に調整することにより、アルゴリズムの挙動がこれらのダイナミクスから生じる軌道を反映していることが示される。
重要なことは、我々のコントリビューションは、複製子力学を超えたMARLアルゴリズムの理論的保証を拡張できるフレームワークを提供する。
最後に,実験結果と理論的知見の相関関係について検討した。
関連論文リスト
- Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Realization of the Trajectory Propagation in the MM-SQC Dynamics by
Using Machine Learning [4.629634111796585]
本研究では,教師付き機械学習(ML)アプローチを適用し,軌道に基づく非線形力学を実現する。
提案したアイデアは、いくつかのサイト・エクシトン電子-フォノンカップリングモデルの力学シミュレーションにおいて信頼性と正確性があることが証明されている。
論文 参考訳(メタデータ) (2022-07-11T01:23:36Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。