論文の概要: Population-Aware Imitation Learning in Mean-field Games with Common Noise
- arxiv url: http://arxiv.org/abs/2605.03357v1
- Date: Tue, 05 May 2026 04:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.766459
- Title: Population-Aware Imitation Learning in Mean-field Games with Common Noise
- Title(参考訳): 共通雑音を持つ平均場ゲームにおける人口認識模倣学習
- Authors: Grégoire Lambrecht, Mathieu Laurière,
- Abstract要約: 平均フィールドゲーム(MFG)は、相互作用するエージェントの集合的振る舞いをモデル化するための強力なフレームワークを提供する。
本稿では,一般化されたFactitious PlayとDeep Learningを用いて,専門家の集団認識ポリシを計算した数値フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.394379536305005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mean Field Games (MFGs) provide a powerful framework for modeling the collective behavior of large populations of interacting agents. In this paper, we address the problem of Imitation Learning (IL) in MFGs subject to common noise, where the population distribution evolves stochastically. This stochasticity compels agents to adopt population-aware policies to respond to aggregate shocks. We formulate two distinct learning objectives: recovering a Nash equilibrium and maximizing performance against an expert population. We investigate two imitation proxies: Behavioral Cloning (BC) and Adversarial (ADV) divergence. We then establish finite-sample error bounds showing that minimizing these proxies effectively controls both the policy's exploitability and its performance gap relative to the expert. Furthermore, we propose a numerical framework using generalized Fictitious Play and Deep Learning to compute expert population-aware policies. Through experiments on three environments we demonstrate that standard population-unaware policies fail to capture the equilibrium dynamics. Our results highlight that learning population-aware policies is crucial to avoid being misled by the randomness inherent in common noise.
- Abstract(参考訳): 平均フィールドゲーム (MFGs) は、相互作用するエージェントの集団的振る舞いをモデル化するための強力なフレームワークを提供する。
本稿では,人口分布が確率的に進化するMFGにおけるImitation Learning(IL)の問題に対処する。
この確率性は、集団的なショックに対応するために人口対応政策を採用するエージェントを補完する。
ナッシュ均衡の回復と,専門家集団に対するパフォーマンスの最大化という,2つの異なる学習目標を定式化する。
本稿では,行動クローン (BC) とアドバイサリアル (ADV) の2つの模倣プロキシについて検討する。
次に、これらのプロキシの最小化が、ポリシーのエクスプロイザビリティと、専門家に対するパフォーマンスギャップの両方を効果的に制御することを示す有限サンプル誤差境界を確立する。
さらに,一般化されたFactitious PlayとDeep Learningを用いて,専門家の集団対応ポリシを演算する数値フレームワークを提案する。
3つの環境における実験を通して、標準人口無意識の政策は平衡力学を捉えないことを示した。
以上の結果から,一般騒音に起因したランダム性による誤認を避けるためには,集団認識型政策の学習が不可欠であることが示唆された。
関連論文リスト
- LLM-Powered Social Digital Twins: A Framework for Simulating Population Behavioral Response to Policy Interventions [0.2787288702904897]
ソーシャルデジタルツイン(Social Digital Twins)は、大規模言語モデルが個々のエージェントの認知エンジンとして機能する仮想人口レプリカである。
新型コロナウイルスをケーススタディとして、パンデミック対応の領域でこの枠組みをインスタンス化する。
本稿では, 政策シミュレーション, アプローチの限界, パンデミック対応を超えてLLMベースのデジタル双生児を拡大するための方向性について論じる。
論文 参考訳(メタデータ) (2026-01-03T13:25:33Z) - Population-aware Online Mirror Descent for Mean-Field Games with Common Noise by Deep Reinforcement Learning [28.970166223191836]
Mean Field Games (MFG) は、大規模マルチエージェントシステムを研究するための強力なフレームワークを提供する。
しかし、MFGsにおけるナッシュ均衡の学習は依然として難しい問題である。
人口依存型ナッシュ均衡を実現するために,効率的な深層強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-03T05:33:46Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Population-size-Aware Policy Optimization for Mean-Field Games [34.80183622480149]
エージェントの最適なポリシーは,平均フィールドゲームにおけるエージェント数(人口規模)とともにどのように進化するかを検討する。
本稿では,2つの自然な選択肢(拡張とハイパーネットワーク)を統一し,性能を大幅に向上させる,人口規模対応政策最適化(PAPO)を提案する。
PAPOは3つの要素から構成される:i) 集団サイズの本来の値を等価な符号化に変換する集団サイズ符号化、i) トレーニング崩壊を避けるためのハイパーネットワーク、i) 集団サイズで条件付けられた各ゲームに対して異なるポリシーを生成するためのハイパーネットワーク、iii) 生成されたポリシーへの追加入力として人口サイズを生成する。
論文 参考訳(メタデータ) (2023-02-07T10:16:00Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response [15.149039407681945]
多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。
我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
論文 参考訳(メタデータ) (2020-06-17T01:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。