論文の概要: Discovering How Agents Learn Using Few Data
- arxiv url: http://arxiv.org/abs/2307.06640v1
- Date: Thu, 13 Jul 2023 09:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 15:17:18.868059
- Title: Discovering How Agents Learn Using Few Data
- Title(参考訳): エージェントがわずかなデータを使ってどのように学習するかを発見する
- Authors: Iosif Sakos, Antonios Varvitsiotis, Georgios Piliouras
- Abstract要約: 本稿では,単一系軌道の短いバーストを用いたエージェント動作のリアルタイム同定のための理論的,アルゴリズム的なフレームワークを提案する。
提案手法は, 平衡選択やカオスシステムの予測など, 様々なベンチマークにおいて, 真の力学を正確に再現する。
これらの結果から,戦略的マルチエージェントシステムにおいて,効果的な政策と意思決定を支援する可能性が示唆された。
- 参考スコア(独自算出の注目度): 32.38609641970052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized learning algorithms are an essential tool for designing
multi-agent systems, as they enable agents to autonomously learn from their
experience and past interactions. In this work, we propose a theoretical and
algorithmic framework for real-time identification of the learning dynamics
that govern agent behavior using a short burst of a single system trajectory.
Our method identifies agent dynamics through polynomial regression, where we
compensate for limited data by incorporating side-information constraints that
capture fundamental assumptions or expectations about agent behavior. These
constraints are enforced computationally using sum-of-squares optimization,
leading to a hierarchy of increasingly better approximations of the true agent
dynamics. Extensive experiments demonstrated that our approach, using only 5
samples from a short run of a single trajectory, accurately recovers the true
dynamics across various benchmarks, including equilibrium selection and
prediction of chaotic systems up to 10 Lyapunov times. These findings suggest
that our approach has significant potential to support effective policy and
decision-making in strategic multi-agent systems.
- Abstract(参考訳): 分散学習アルゴリズムは,エージェントが経験や過去のインタラクションから自律的に学習できるようにするため,マルチエージェントシステムを設計する上で不可欠なツールである。
本研究では,単一系軌道の短いバーストを用いてエージェント動作を制御する学習ダイナミクスのリアルタイム同定のための理論的およびアルゴリズム的枠組みを提案する。
そこでは,エージェントの振る舞いに関する基本的な仮定や期待を捉える側情報制約を組み込むことで,限られたデータに対する補償を行う。
これらの制約は2乗の和最適化を用いて計算的に強制され、真のエージェントダイナミクスのより優れた近似の階層となる。
実験の結果,1つの軌道の短絡から得られた5つのサンプルのみを用いて,平衡選択やカオスシステムの予測など,様々なベンチマークの真のダイナミクスを正確に再現できることがわかった。
これらの結果から,戦略的マルチエージェントシステムにおいて,効果的な政策と意思決定を支援する可能性が示唆された。
関連論文リスト
- Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-23T14:16:34Z) - Adversarial Knapsack and Secondary Effects of Common Information for Cyber Operations [0.9378911615939924]
本稿では,CTF(Capture the Flag)コンペティションのための動的ネットワーク制御ゲームを形式化し,各タイムステップごとに静的ゲームの詳細を示す。
我々は、重み付きKnapsack問題を相互作用するシステムとして、Adversarial Knapsack最適化問題を定義する。
シナリオ、報酬、コストに対する一般的な認識は、非協力的なゲームのステージにつくでしょう。
論文 参考訳(メタデータ) (2024-03-16T03:41:12Z) - Blending Data-Driven Priors in Dynamic Games [9.085463548798366]
Kullback-Leibler (KL) 正規化による非協調的ダイナミックゲームの解法を定式化する。
我々は,KLGameのNash平衡戦略を,マルチモーダル近似フィードバックをリアルタイムに計算するための効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-21T23:22:32Z) - Auto-Encoding Bayesian Inverse Games [36.06617326128679]
ゲームの性質が不明な逆ゲーム問題を考える。
既存の最大推定手法は、未知のパラメータの点推定のみを提供する。
ベイズ的視点を採り、ゲームパラメータの後方分布を構成する。
この構造化されたVAEは、観測された相互作用のラベルのないデータセットから訓練することができる。
論文 参考訳(メタデータ) (2024-02-14T02:17:37Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - DySMHO: Data-Driven Discovery of Governing Equations for Dynamical
Systems via Moving Horizon Optimization [77.34726150561087]
本稿では,スケーラブルな機械学習フレームワークである移動水平最適化(DySMHO)による動的システムの発見について紹介する。
DySMHOは、基底関数の大きな辞書から基礎となる支配方程式を逐次学習する。
標準非線形力学系の例は、DySMHOが規則を正確に回復できることを示すために用いられる。
論文 参考訳(メタデータ) (2021-07-30T20:35:03Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium [76.78447814623665]
正規形式ゲームにおいて、相関平衡に収束する最初の非共役な非共役ダイナミクスを与える。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
提案アルゴリズムは,各決定点における局所的なサブプロブレムにトリガを分解し,局所解からプレイヤーのグローバルな戦略を構築する。
論文 参考訳(メタデータ) (2020-04-01T17:39:00Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。