論文の概要: Learning in Markets with Heterogeneous Agents: Dynamics and Survival of Bayesian vs. No-Regret Learners
- arxiv url: http://arxiv.org/abs/2502.08597v1
- Date: Wed, 12 Feb 2025 17:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 18:10:01.096339
- Title: Learning in Markets with Heterogeneous Agents: Dynamics and Survival of Bayesian vs. No-Regret Learners
- Title(参考訳): 不均質なエージェントによる市場学習:ベイジアン対非学習者のダイナミクスと生存
- Authors: David Easley, Yoav Kolumbus, Eva Tardos,
- Abstract要約: ベイジアンと非レグレットの学習者を市場ダイナミクスで比較することに注力する。
オンライン学習理論は富のログを最大化するアルゴリズムを提供する。
ベイズ学習は脆弱であるのに対して,非回帰学習は環境に関する知識をあまり必要としない。
- 参考スコア(独自算出の注目度): 3.985264439635754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze the performance of heterogeneous learning agents in asset markets with stochastic payoffs. Our agents aim to maximize the expected growth rate of their wealth but have different theories on how to learn this best. We focus on comparing Bayesian and no-regret learners in market dynamics. Bayesian learners with a prior over a finite set of models that assign positive prior probability to the correct model have posterior probabilities that converge exponentially to the correct model. Consequently, they survive even in the presence of agents who invest according to the correct model of the stochastic process. Bayesians with a continuum prior converge to the correct model at a rate of $O((\log T)/T)$. Online learning theory provides no-regret algorithms for maximizing the log of wealth in this setting, achieving a worst-case regret bound of $O(\log T)$ without assuming a steady underlying stochastic process but comparing to the best fixed investment rule. This regret, as we observe, is of the same order of magnitude as that of a Bayesian learner with a continuum prior. However, we show that even such low regret may not be sufficient for survival in asset markets: an agent can have regret as low as $O(\log T)$, but still vanish in market dynamics when competing against agents who invest according to the correct model or even against a perfect Bayesian with a finite prior. On the other hand, we show that Bayesian learning is fragile, while no-regret learning requires less knowledge of the environment and is therefore more robust. Any no-regret learner will drive out of the market an imperfect Bayesian whose finite prior or update rule has even small errors. We formally establish the relationship between notions of survival, vanishing, and market domination studied in economics and the framework of regret minimization, thus bridging these theories.
- Abstract(参考訳): 確率的ペイオフを用いた資産市場における異種学習エージェントの性能分析を行った。
我々のエージェントは、彼らの富の期待する成長速度を最大化することを目指しています。
ベイジアンと非レグレットの学習者を市場ダイナミクスで比較することに注力する。
正のモデルに正の事前確率を割り当てるモデルの有限集合に先行するベイズ学習者は、正のモデルに指数関数的に収束する後続確率を持つ。
したがって、彼らは確率過程の正しいモデルに従って投資するエージェントの存在下でも生き残る。
連続体を持つベイズ群は正しいモデルに$O((\log T)/T)$の速度で収束する。
オンライン学習理論は、この設定における富のログを最大化し、安定した確率過程を前提とせず、最良の固定投資ルールと比較することなく、最悪の場合の残高$O(\log T)$を達成できるようなアルゴリズムを提供する。
この後悔は、私たちが観察したように、前もって連続体を持つベイズ学習者のそれと同等である。
エージェントは$O(\log T)$と同じくらいの低額の後悔を持つことができるが、正しいモデルで投資するエージェントと競合したり、有限の事前を持つ完全ベイズ的エージェントと競合する場合、市場ダイナミクスにおいて消える。
一方,ベイズ学習は脆弱であり,非回帰学習は環境に関する知識を少なくし,より堅牢であることを示す。
未学習の学習者は誰でも市場から追い出され、有限の事前または更新ルールが小さな誤りを犯すような不完全なベイジアンになる。
我々は、経済的に研究された生存、消滅、市場支配の概念と後悔の最小化の枠組みとの関係を正式に確立し、これらの理論を橋渡しする。
関連論文リスト
- Conservative classifiers do consistently well with improving agents: characterizing statistical and online learning [7.857499581522375]
複数の新しい軸にまたがる改良を施したいわゆる学習性の特徴付けを行う。
より困難な環境での学習方法を示し、よく研究された有界雑音モデルの下で、より低い一般化誤差を達成する。
我々は、適切な学習と不適切な学習の両方のために、Attiasらによって提起されたオープンな質問を解決する。
論文 参考訳(メタデータ) (2025-06-05T17:13:59Z) - Deviations from the Nash equilibrium and emergence of tacit collusion in a two-player optimal execution game with reinforcement learning [0.9208007322096533]
2つの自律的エージェントが市場の影響下で同じ資産を最適に清算することを学習するシナリオについて検討する。
その結果,エージェントが学んだ戦略は,対応する市場影響ゲームのナッシュ均衡から大きく逸脱していることがわかった。
市場のボラティリティの異なるレベルがエージェントのパフォーマンスと彼らが発見する均衡にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-08-21T16:54:53Z) - Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - No-Regret Learning in Bilateral Trade via Global Budget Balance [29.514323697659613]
我々は、様々なフィードバックモデルの下で、敵対的二元貿易のための最初のノンレグレットアルゴリズムを提供する。
フルフィードバックモデルでは、学習者は後見の最高の固定価格に対して$tilde O(sqrtT)$ regretを保証できる。
また,1ビットフィードバックを伴って,$tilde O(T3/4)$ regret upper boundを保証した学習アルゴリズムも提供する。
論文 参考訳(メタデータ) (2023-10-18T22:34:32Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Fundamental Bounds on Online Strategic Classification [13.442155854812528]
戦略設定において,決定論的アルゴリズムが$o(Delta)$の誤りを達成できないことを示す。
また、これを非依存の設定に拡張し、$Delta$乗法後悔のアルゴリズムを得る。
我々は,不愉快な,適応的な両敵に対して,サブ線形後悔境界を実現するランダム化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-02-23T22:39:43Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - Learning Equilibria in Matching Markets from Bandit Feedback [139.29934476625488]
不確実性の下で安定した市場成果を学習するためのフレームワークとアルゴリズムを開発する。
私たちの研究は、大規模なデータ駆動の市場において、いつ、どのように安定したマッチングが生じるかを明らかにするための第一歩を踏み出します。
論文 参考訳(メタデータ) (2021-08-19T17:59:28Z) - Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets [23.224860573461818]
トレーディングマーケットは、強化学習エージェントを展開するための現実世界の金融アプリケーションである。
リスクに敏感なペイオフを考慮したマルチエージェント学習のための経験的ゲーム理論解析を拡張した最初の研究である。
論文 参考訳(メタデータ) (2021-07-16T19:15:13Z) - Dynamic Pricing and Learning under the Bass Model [16.823029377470366]
マーケットサイズが$m$である場合、オーダー$tilde O(m2/3)$の確率後悔保証を満足するアルゴリズムを開発する。
多くの後悔の分析結果とは異なり、現在の問題では市場規模$m$が複雑さの基本的な要因である。
論文 参考訳(メタデータ) (2021-03-09T03:27:33Z) - Learning Strategies in Decentralized Matching Markets under Uncertain
Preferences [91.3755431537592]
エージェントの選好が不明な場合,共有資源の不足の設定における意思決定の問題について検討する。
我々のアプローチは、再生されたカーネルヒルベルト空間における好みの表現に基づいている。
エージェントの期待した利益を最大化する最適な戦略を導出する。
論文 参考訳(メタデータ) (2020-10-29T03:08:22Z) - Hedging using reinforcement learning: Contextual $k$-Armed Bandit versus
$Q$-learning [0.22940141855172028]
本稿では,リスクと市場摩擦の存在下での連関債権の複製戦略の構築について検討する。
本稿では、ヘッジ問題はリスク・アバース文脈における$k$-armed bandit問題の例と見なされる。
私たちは、$k$の武器付きバンディットモデルが、ヘッジの利益と損失の定式化に自然に適合していることに気付きました。
論文 参考訳(メタデータ) (2020-07-03T11:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。