論文の概要: Mutation-Bias Learning in Games
- arxiv url: http://arxiv.org/abs/2405.18190v1
- Date: Tue, 28 May 2024 14:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:19:39.685193
- Title: Mutation-Bias Learning in Games
- Title(参考訳): ゲームにおける突然変異バイアス学習
- Authors: Johann Bauer, Sheldon West, Eduardo Alonso, Mark Broom,
- Abstract要約: 本稿では,進化ゲーム理論に基づくマルチエージェント強化学習アルゴリズムの2つの変種について述べる。
1つの変種は、レプリケータ・ミューテータ力学系の常微分方程式系との関係を証明できる。
より複雑なバリエーションは、Q-ラーニングベースのアルゴリズムとの比較を可能にする。
- 参考スコア(独自算出の注目度): 1.743685428161914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present two variants of a multi-agent reinforcement learning algorithm based on evolutionary game theoretic considerations. The intentional simplicity of one variant enables us to prove results on its relationship to a system of ordinary differential equations of replicator-mutator dynamics type, allowing us to present proofs on the algorithm's convergence conditions in various settings via its ODE counterpart. The more complicated variant enables comparisons to Q-learning based algorithms. We compare both variants experimentally to WoLF-PHC and frequency-adjusted Q-learning on a range of settings, illustrating cases of increasing dimensionality where our variants preserve convergence in contrast to more complicated algorithms. The availability of analytic results provides a degree of transferability of results as compared to purely empirical case studies, illustrating the general utility of a dynamical systems perspective on multi-agent reinforcement learning when addressing questions of convergence and reliable generalisation.
- Abstract(参考訳): 本稿では,進化ゲーム理論に基づくマルチエージェント強化学習アルゴリズムの2つの変種について述べる。
1つの変種を意図的に単純化することで、レプリケータ・ミュータ・ダイナミクス型の常微分方程式系との関係性を証明することができ、ODE の様々な設定におけるアルゴリズムの収束条件に関する証明を提示することができる。
より複雑なバリエーションは、Q-ラーニングベースのアルゴリズムとの比較を可能にする。
我々は,実験的にWoLF-PHCと周波数調整Q-ラーニングを比較した。
解析結果の可用性は、純粋に経験的なケーススタディと比較して結果の伝達可能性の程度を提供し、収束性や信頼性のある一般化の問題を解く際に、マルチエージェント強化学習における力学系の観点からの一般的な有用性を示す。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Unified ODE Analysis of Smooth Q-Learning Algorithms [5.152147416671501]
近年,Q-ラーニングのためのコンバージェンス解析をスイッチングシステムフレームワークを用いて導入している。
スイッチングシステムアプローチを改善するために,より汎用的で統一的な収束解析を提案する。
論文 参考訳(メタデータ) (2024-04-20T01:16:27Z) - Quantized Hierarchical Federated Learning: A Robust Approach to
Statistical Heterogeneity [3.8798345704175534]
本稿では,コミュニケーション効率に量子化を組み込んだ新しい階層型フェデレーション学習アルゴリズムを提案する。
最適性ギャップと収束率を評価するための包括的な分析フレームワークを提供する。
この結果から,本アルゴリズムはパラメータの範囲で常に高い学習精度を達成できることが判明した。
論文 参考訳(メタデータ) (2024-03-03T15:40:24Z) - Invertible Solution of Neural Differential Equations for Analysis of
Irregularly-Sampled Time Series [4.14360329494344]
本稿では,不規則な時系列データと不完全時系列データの複雑度を扱うために,ニューラル微分方程式(NDE)に基づく非可逆解を提案する。
計算負荷を低く抑えながら可逆性を確保するニューラルフローを用いたニューラル制御微分方程式(Neural Controlled Differential Equations, ニューラルCDE)の変動について提案する。
我々のアプローチの核となるのは拡張された二重潜在状態アーキテクチャであり、様々な時系列タスクにおいて高精度に設計されている。
論文 参考訳(メタデータ) (2024-01-10T07:51:02Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Harnessing Heterogeneity: Learning from Decomposed Feedback in Bayesian
Modeling [68.69431580852535]
サブグループフィードバックを取り入れた新しいGPレグレッションを導入する。
我々の修正された回帰は、以前のアプローチと比べて、明らかにばらつきを減らし、したがってより正確な後続を減らした。
我々は2つの異なる社会問題に対してアルゴリズムを実行する。
論文 参考訳(メタデータ) (2021-07-07T03:57:22Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Group Equivariant Deep Reinforcement Learning [4.997686360064921]
我々は、RLエージェントの訓練に同変CNNを用い、変換同変Q値近似のための誘導バイアスについて検討する。
我々は,RLエージェントの性能と試料効率を高対称な環境下で劇的に向上させることを実証した。
論文 参考訳(メタデータ) (2020-07-01T02:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。