論文の概要: Steering No-Regret Agents in MFGs under Model Uncertainty
- arxiv url: http://arxiv.org/abs/2503.09309v1
- Date: Wed, 12 Mar 2025 12:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:56.796039
- Title: Steering No-Regret Agents in MFGs under Model Uncertainty
- Title(参考訳): モデル不確かさ下におけるMFGの非反応剤のステアリング
- Authors: Leo Widmer, Jiawei Huang, Niao He,
- Abstract要約: 本研究では,密度非依存遷移を伴う平均フィールドゲームにおけるステアリング報酬の設計について検討する。
我々は,エージェントの行動と所望の行動との累積的ギャップについて,サブ線形後悔の保証を確立する。
本研究は, 不確実な大人口システムにおいて, エージェントの操舵行動に有効な枠組みを提案する。
- 参考スコア(独自算出の注目度): 19.845081182511713
- License:
- Abstract: Incentive design is a popular framework for guiding agents' learning dynamics towards desired outcomes by providing additional payments beyond intrinsic rewards. However, most existing works focus on a finite, small set of agents or assume complete knowledge of the game, limiting their applicability to real-world scenarios involving large populations and model uncertainty. To address this gap, we study the design of steering rewards in Mean-Field Games (MFGs) with density-independent transitions, where both the transition dynamics and intrinsic reward functions are unknown. This setting presents non-trivial challenges, as the mediator must incentivize the agents to explore for its model learning under uncertainty, while simultaneously steer them to converge to desired behaviors without incurring excessive incentive payments. Assuming agents exhibit no(-adaptive) regret behaviors, we contribute novel optimistic exploration algorithms. Theoretically, we establish sub-linear regret guarantees for the cumulative gaps between the agents' behaviors and the desired ones. In terms of the steering cost, we demonstrate that our total incentive payments incur only sub-linear excess, competing with a baseline steering strategy that stabilizes the target policy as an equilibrium. Our work presents an effective framework for steering agents behaviors in large-population systems under uncertainty.
- Abstract(参考訳): インセンティブ・デザイン(Incentive Design)は、エージェントの学習ダイナミクスを、本質的な報酬を超えて追加の支払いを提供することによって、望ましい結果へと導くための一般的なフレームワークである。
しかし、既存のほとんどの作品では、有限で小さなエージェントのセットに焦点をあてたり、ゲームの完全な知識を前提にし、大集団やモデルの不確実性を含む現実のシナリオに適用性を制限する。
このギャップに対処するため,平均フィールドゲーム(MFG)において,遷移力学と固有報酬関数の双方が未知な,密度非依存的な遷移を伴うステアリング報酬の設計について検討した。
この設定は、仲介者が不確実性の下でモデル学習を探索するためにエージェントにインセンティブを与えると同時に、過度のインセンティブの支払いを伴わずに、望ましい行動に収束させるという、非自明な課題を提示する。
エージェントが(適応的な)後悔行動を持たないと仮定すると、我々は新しい楽観的な探索アルゴリズムに貢献する。
理論的には,エージェントの行動と所望の行動との累積的ギャップについて,サブ線形後悔の保証を確立する。
ステアリングコストの観点からは、当社の総インセンティブ支払いは、目標政策を均衡として安定化するベースラインステアリング戦略と競合して、サブラインオーバーしか発生しないことを示す。
本研究は, 不確実な大人口システムにおいて, エージェントの操舵行動に有効な枠組みを提案する。
関連論文リスト
- Learning to Steer Markovian Agents under Model Uncertainty [23.603487812521657]
我々は,希望する政策に向けて,マルチエージェントシステムに付加的な報酬を課す方法について検討する。
既存の作業の制限によって動機づけられた我々は、emphMarkovian agentと呼ばれる学習力学の新しいカテゴリーを考える。
我々は、エージェントの学習力学に関する本質的なモデルの不確実性を扱うために、歴史に依存した運営戦略を学習する。
論文 参考訳(メタデータ) (2024-07-14T14:01:38Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Risk Sensitive Model-Based Reinforcement Learning using Uncertainty
Guided Planning [0.0]
本稿では,モデルに基づく強化学習アルゴリズムでリスク感度を向上する。
本研究では,高分散状態予測をもたらす行動系列を解析する不確実性誘導型クロスエントロピー法計画を提案する。
実験では、エージェントが計画中の状態空間の不確実な領域を識別し、エージェントを高い信頼領域内に保持する行動をとる能力を示す。
論文 参考訳(メタデータ) (2021-11-09T07:28:00Z) - Fair Incentives for Repeated Engagement [0.46040036610482665]
我々は、参加決定が受け取ったインセンティブに依存するエージェントに直面する場合、維持のための最適な金融インセンティブスキームを見つけるという課題について検討する。
明示的な差別がなくても、システムの種類構成を変化させることで、ポリシーが無意識に異なるタイプのエージェントを識別できることが示される。
論文 参考訳(メタデータ) (2021-10-28T04:13:53Z) - Robust Allocations with Diversity Constraints [65.3799850959513]
エージェント値の積を最大化するナッシュ福祉規則は,多様性の制約が導入されたとき,一意にロバストな位置にあることを示す。
また, ナッシュ・ウェルズによる保証は, 広く研究されているアロケーション・ルールのクラスにおいて, ほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-09-30T11:09:31Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。