Fugu-MT 論文翻訳(概要): Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour with Multi-Agent Reinforcement Learning

論文の概要: Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour with Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.00787v1
Date: Thu, 1 Feb 2024 17:21:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 14:11:20.754298
Title: Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour with Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習による不均質有理市場行動の学習と校正
Authors: Benjamin Patrick Evans, Sumitra Ganesh
Abstract要約: エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。 MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
参考スコア（独自算出の注目度）: 4.40301653518681
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Agent-based models (ABMs) have shown promise for modelling various real world phenomena incompatible with traditional equilibrium analysis. However, a critical concern is the manual definition of behavioural rules in ABMs. Recent developments in multi-agent reinforcement learning (MARL) offer a way to address this issue from an optimisation perspective, where agents strive to maximise their utility, eliminating the need for manual rule specification. This learning-focused approach aligns with established economic and financial models through the use of rational utility-maximising agents. However, this representation departs from the fundamental motivation for ABMs: that realistic dynamics emerging from bounded rationality and agent heterogeneity can be modelled. To resolve this apparent disparity between the two approaches, we propose a novel technique for representing heterogeneous processing-constrained agents within a MARL framework. The proposed approach treats agents as constrained optimisers with varying degrees of strategic skills, permitting departure from strict utility maximisation. Behaviour is learnt through repeated simulations with policy gradients to adjust action likelihoods. To allow efficient computation, we use parameterised shared policy learning with distributions of agent skill levels. Shared policy learning avoids the need for agents to learn individual policies yet still enables a spectrum of bounded rational behaviours. We validate our model's effectiveness using real-world data on a range of canonical $n$-agent settings, demonstrating significantly improved predictive capability.
Abstract（参考訳）: エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。しかし、重要な懸念事項は、ABMにおける行動規則のマニュアル定義である。マルチエージェント強化学習(MARL)の最近の進歩は、エージェントが手動によるルール仕様の必要性をなくし、有効性を最大化しようとする最適化の観点からこの問題に対処する方法を提供する。この学習に焦点を当てたアプローチは、合理的な効用最大化エージェントを使用することで、確立された経済モデルや金融モデルと整合する。しかし、この表現はabmsの基本的な動機から逸脱しており、有界合理性とエージェントの不均一性から生まれる現実的なダイナミクスをモデル化することができる。この2つのアプローチ間の明らかな相違を解決するために,我々はmarlフレームワーク内で異種処理制約されたエージェントを表現する新しい手法を提案する。提案手法では,エージェントを様々な戦略スキルを持つ制約付きオプティマイザとして扱うことにより,厳密なユーティリティ最大化から離脱することができる。行動は、行動可能性を調整するための政策勾配を伴う繰り返しシミュレーションを通じて学習される。効率的な計算を可能にするために,エージェントスキルレベルの分布をパラメータ化した共有ポリシ学習を用いる。共有ポリシー学習は、エージェントが個々のポリシーを学ぶ必要性を回避しつつも、境界のある合理的な振る舞いのスペクトルを許容する。我々は,標準的な$n$-agent設定で実世界のデータを用いて,モデルの有効性を検証し,予測能力を大幅に改善した。

関連論文リスト

From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9109581496560044]
特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文参考訳（メタデータ） (2024-06-14T12:37:08Z)
Simulating the Economic Impact of Rationality through Reinforcement Learning and Agent-Based Modelling [1.7546137756031712]
我々はエージェントベースモデル(ABM)の能力を拡大するためにマルチエージェント強化学習(RL)を活用している。 RLエージェントは、市場競争のレベルと合理性に応じて、利益を最大化するための3つの異なる戦略を自発的に学習することを示します。また、独立した政策を持つRLエージェントと、相互にコミュニケーションする能力のないエージェントは、自発的に異なる戦略グループに分離することを学び、市場力と全体的な利益を増大させます。
論文参考訳（メタデータ） (2024-05-03T15:08:25Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Multi-Agent Inverse Reinforcement Learning: Suboptimal Demonstrations and Alternative Solution Concepts [0.0]
マルチエージェント逆強化学習は、社会的環境におけるエージェントから報酬関数を学習するために用いられる。現実的な社会的ダイナミクスをモデル化するには、MIRL法は最適な人間の推論と振る舞いを考慮しなければならない。
論文参考訳（メタデータ） (2021-09-02T19:15:29Z)
ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。 ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文参考訳（メタデータ） (2021-06-10T04:32:20Z)
Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-11T13:25:13Z)
On the model-based stochastic value gradient for continuous reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文参考訳（メタデータ） (2020-08-28T17:58:29Z)
Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via Best Response [15.149039407681945]
多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
論文参考訳（メタデータ） (2020-06-17T01:17:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。