論文の概要: Towards Model-Free Learning in Dynamic Population Games: An Application to Karma Economies
- arxiv url: http://arxiv.org/abs/2605.11042v1
- Date: Mon, 11 May 2026 08:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.325679
- Title: Towards Model-Free Learning in Dynamic Population Games: An Application to Karma Economies
- Title(参考訳): ダイナミックポピュレーションゲームにおけるモデルフリー学習に向けて:カルマエコノミクスへの応用
- Authors: Matteo Cederle, Saverio Bolognani, Gian Antonio Susto,
- Abstract要約: ダイナミックポピュレーションゲームのための既存の計算ツールは、ゲームモデルの完全な知識を前提として、中央集権的な操作を行う。
本稿では,Karma DPGにおけるモデル自由平衡学習の研究により,このギャップに対処するための一歩を踏み出した。
深部RLと架空の遊びと滑らかなポリシーを組み合わせることで、エージェントはモデルのない方法で、中央に計算されたSNEに近い構成に収束できることを示す。
- 参考スコア(独自算出の注目度): 7.726701007187284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dynamic Population Games (DPGs) provide a tractable framework for modeling strategic interactions in large populations of self-interested agents, and have been successfully applied to the design of Karma economies, a class of fair non-monetary resource allocation mechanisms. Despite their appealing theoretical properties, existing computational tools for DPGs assume full knowledge of the game model and operate in a centralized fashion, limiting their applicability in realistic settings where agents have access only to their own private experience. This paper takes a step towards addressing this gap by studying model-free equilibrium learning in Karma DPGs. First, we analyze the setting in which a novel agent joins a Karma DPG already at its Stationary Nash Equilibrium (SNE) and learns a policy via Deep Q-Networks (DQN) without knowledge of the game model. Leveraging recent convergence results for DQN, we establish a suboptimality bound consisting of a DQN approximation error of order $O(1/\sqrt{N_s})$ and a mean field perturbation error of order $O(1/N)$, where $N_s$ is the replay buffer size and $N$ is the population size. Second, we consider the challenging problem of learning the SNE from scratch. We show empirically that combining deep RL with fictitious play and smoothed policy iteration allows agents to converge, in a model-free fashion, to a configuration close to the centrally computed SNE. Together, these contributions support the vision of Karma economies as practical tools for fair resource allocation.
- Abstract(参考訳): 動的人口ゲーム(DPG)は,多人数の利害関係者の戦略的相互作用をモデル化するための枠組みであり,公平な非金銭的資源配分機構であるカルマ経済の設計に成功している。
その魅力的な理論的特性にもかかわらず、既存のDPGの計算ツールはゲームモデルの完全な知識を前提として中央集権的な方法で動作し、エージェントが自身のプライベート体験にのみアクセス可能な現実的な環境での適用性を制限する。
本稿では,Karma DPGにおけるモデル自由平衡学習の研究により,このギャップに対処するための一歩を踏み出した。
まず,新たなエージェントがすでにSNE(Stationary Nash Equilibrium)でKarma DPGに参加する状況を分析し,ゲームモデルを知ることなくDeep Q-Networks(DQN)を介してポリシーを学習する。
DQN の最近の収束結果を利用して、DQN の次数 $O(1/\sqrt{N_s})$ の近似誤差と位数 $O(1/N)$ の平均場摂動誤差からなる準最適境界を確立し、そこで、$N_s$ はリプレイバッファサイズであり、$N$ は集団サイズである。
次に,SNEをスクラッチから学習する際の課題について考察する。
我々は,深部RLと架空の遊びとスムーズなポリシー繰り返しを組み合わせることで,エージェントがモデルのない方法で,中央に計算されたSNEに近い構成に収束できることを実証的に示す。
これらの貢献は、公平な資源配分のための実践的なツールとしてのカルマ経済のビジョンを支援する。
関連論文リスト
- OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks [81.07598709704628]
標準線形スケーリングを非線形分布マッチングに置き換える新しいRLトレーニング目標を提案する。
また、高度に堅牢で汎用的なマルチモーダルモデルであるOpenVLThinkerV2を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Diffusion Self-Weighted Guidance for Offline Reinforcement Learning [1.7614751781649955]
オフライン強化学習(RL)は、エージェントの歴史的観察を考慮すれば、最適なポリシーを$pi$で回復する。
実際には、$pi$はエージェントの振舞いポリシーの重み付けバージョンとしてモデル化され、エージェントの振舞いに対する批判として働く重み関数$w$を使用する。
D4RLの挑戦的環境における現状と同等の手法を用いて, 玩具のサンプルから自己重み付けガイダンス(SWG)が, 所望の分布からサンプルを生成することを示す。
論文 参考訳(メタデータ) (2025-05-23T20:03:36Z) - Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。
本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。
我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文 参考訳(メタデータ) (2024-03-28T15:22:29Z) - Population-aware Online Mirror Descent for Mean-Field Games by Deep
Reinforcement Learning [43.004209289015975]
平均フィールドゲーム(MFG)は、大規模マルチエージェントシステムを扱う能力を持つ。
本研究では,人口依存型ナッシュ均衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T08:55:34Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Reinforcement Learning for Mean Field Games, with Applications to
Economics [0.0]
平均場ゲーム(MFG)および平均場制御問題(平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題)は、エージェントの連続体を持つゲームにおいてナッシュ平衡または社会的最適性を研究するためのフレームワークである。
本稿では,MFGとMFCのためのRLを用いた2つの時間スケールアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-25T16:45:04Z) - Operator Splitting for Learning to Predict Equilibria in Convex Games [26.92001486095397]
平衡を自然に出力するニューラルネットワークのクラスであるNash Fixed Point Networks (N-FPNs)を紹介する。
N-FPNは暗黙のネットワークをトレーニングするための最近開発されたヤコビアンフリーバックプロパゲーション技術と互換性がある。
実験の結果,N-FPNは既存の学習ゲーム解法よりも桁違いに大きい問題にスケール可能であることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。