論文の概要: Microeconomic Foundations of Multi-Agent Learning
- arxiv url: http://arxiv.org/abs/2601.03451v1
- Date: Tue, 06 Jan 2026 22:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.082724
- Title: Microeconomic Foundations of Multi-Agent Learning
- Title(参考訳): マルチエージェント学習のミクロ経済基盤
- Authors: Nassim Helou,
- Abstract要約: 現代のAIシステムは、データ、行動、インセンティブが内在する市場や機関内で運用されている。
本稿では,マルコフ決定過程における主エージェント間相互作用と戦略的外部性について検討し,マルチエージェント学習のための経済基盤を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Modern AI systems increasingly operate inside markets and institutions where data, behavior, and incentives are endogenous. This paper develops an economic foundation for multi-agent learning by studying a principal-agent interaction in a Markov decision process with strategic externalities, where both the principal and the agent learn over time. We propose a two-phase incentive mechanism that first estimates implementable transfers and then uses them to steer long-run dynamics; under mild regret-based rationality and exploration conditions, the mechanism achieves sublinear social-welfare regret and thus asymptotically optimal welfare. Simulations illustrate how even coarse incentives can correct inefficient learning under stateful externalities, highlighting the necessity of incentive-aware design for safe and welfare-aligned AI in markets and insurance.
- Abstract(参考訳): 現代のAIシステムは、データ、行動、インセンティブが内在する市場や機関内でますます運用されている。
本稿では,マルコフ決定過程における主エージェントとエージェントが時間とともに学習する戦略的外部性を用いて,主エージェントと主エージェントの相互作用を研究することにより,マルチエージェント学習のための経済基盤を開発する。
本稿では,まず実装可能なトランスファーを推定し,その後長期的ダイナミクスを操る2段階のインセンティブ機構を提案する。
シミュレーションは、たとえ粗いインセンティブであっても、ステートフルな外部性の下で非効率な学習を補正し、市場や保険における安全で福祉に整合したAIのためのインセンティブを意識した設計の必要性を強調している。
関連論文リスト
- AgentEvolver: Towards Efficient Self-Evolving Agent System [51.54882384204726]
本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。
AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。
予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
論文 参考訳(メタデータ) (2025-11-13T15:14:47Z) - Agentic Inequality [6.034016224014177]
アジェンティック不平等(Agentic inequality)とは、AIエージェントへの差分アクセスから生じる権力、機会、成果の潜在的な格差である。
本稿では、エージェントが既存の分割を悪化させ、適切な条件下では強力な等化力として機能するかを考察する。
論文 参考訳(メタデータ) (2025-10-19T14:32:46Z) - ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。
我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。
さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-05T09:39:47Z) - Understanding the Application of Utility Theory in Robotics and Artificial Intelligence: A Survey [4.240073854229369]
このユーティリティは、経済学、ゲーム理論、およびオペレーション研究において、ロボティクスとAI分野においても統一された概念である。
本稿では,エージェントのインタラクション間の相互関係を記述し,評価するためのユーティリティ指向の要求パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-15T18:55:48Z) - Artificial Intelligence and Dual Contract [2.1756081703276]
独立したQ-ラーニングアルゴリズムを備えた2つのプリンシパルが1つのエージェントと対話するモデルを開発する。
その結果、AIプリンシパルの戦略的行動は、利益の整合性に決定的に左右されることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:31:44Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach [123.55983746427572]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Automated Machine Learning, Bounded Rationality, and Rational
Metareasoning [62.997667081978825]
有界合理性の観点から、自動機械学習(AutoML)と関連する問題を考察する。
リソース境界の下でアクションを取るには、エージェントがこれらのリソースを最適な方法で利用する方法を反映する必要がある。
論文 参考訳(メタデータ) (2021-09-10T09:10:20Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。