論文の概要: Learning in Markets with Heterogeneous Agents: Dynamics and Survival of Bayesian vs. No-Regret Learners
- arxiv url: http://arxiv.org/abs/2502.08597v1
- Date: Wed, 12 Feb 2025 17:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:45:06.421310
- Title: Learning in Markets with Heterogeneous Agents: Dynamics and Survival of Bayesian vs. No-Regret Learners
- Title(参考訳): 不均質なエージェントによる市場学習:ベイジアン対非学習者のダイナミクスと生存
- Authors: David Easley, Yoav Kolumbus, Eva Tardos,
- Abstract要約: ベイジアンと非レグレットの学習者を市場ダイナミクスで比較することに注力する。
オンライン学習理論は富のログを最大化するアルゴリズムを提供する。
ベイズ学習は脆弱であるのに対して,非回帰学習は環境に関する知識をあまり必要としない。
- 参考スコア(独自算出の注目度): 3.985264439635754
- License:
- Abstract: We analyze the performance of heterogeneous learning agents in asset markets with stochastic payoffs. Our agents aim to maximize the expected growth rate of their wealth but have different theories on how to learn this best. We focus on comparing Bayesian and no-regret learners in market dynamics. Bayesian learners with a prior over a finite set of models that assign positive prior probability to the correct model have posterior probabilities that converge exponentially to the correct model. Consequently, they survive even in the presence of agents who invest according to the correct model of the stochastic process. Bayesians with a continuum prior converge to the correct model at a rate of $O((\log T)/T)$. Online learning theory provides no-regret algorithms for maximizing the log of wealth in this setting, achieving a worst-case regret bound of $O(\log T)$ without assuming a steady underlying stochastic process but comparing to the best fixed investment rule. This regret, as we observe, is of the same order of magnitude as that of a Bayesian learner with a continuum prior. However, we show that even such low regret may not be sufficient for survival in asset markets: an agent can have regret as low as $O(\log T)$, but still vanish in market dynamics when competing against agents who invest according to the correct model or even against a perfect Bayesian with a finite prior. On the other hand, we show that Bayesian learning is fragile, while no-regret learning requires less knowledge of the environment and is therefore more robust. Any no-regret learner will drive out of the market an imperfect Bayesian whose finite prior or update rule has even small errors. We formally establish the relationship between notions of survival, vanishing, and market domination studied in economics and the framework of regret minimization, thus bridging these theories.
- Abstract(参考訳): 確率的ペイオフを用いた資産市場における異種学習エージェントの性能分析を行った。
我々のエージェントは、彼らの富の期待する成長速度を最大化することを目指しています。
ベイジアンと非レグレットの学習者を市場ダイナミクスで比較することに注力する。
正のモデルに正の事前確率を割り当てるモデルの有限集合に先行するベイズ学習者は、正のモデルに指数関数的に収束する後続確率を持つ。
したがって、彼らは確率過程の正しいモデルに従って投資するエージェントの存在下でも生き残る。
連続体を持つベイズ群は正しいモデルに$O((\log T)/T)$の速度で収束する。
オンライン学習理論は、この設定における富のログを最大化し、安定した確率過程を前提とせず、最良の固定投資ルールと比較することなく、最悪の場合の残高$O(\log T)$を達成できるようなアルゴリズムを提供する。
この後悔は、私たちが観察したように、前もって連続体を持つベイズ学習者のそれと同等である。
エージェントは$O(\log T)$と同じくらいの低額の後悔を持つことができるが、正しいモデルで投資するエージェントと競合したり、有限の事前を持つ完全ベイズ的エージェントと競合する場合、市場ダイナミクスにおいて消える。
一方,ベイズ学習は脆弱であり,非回帰学習は環境に関する知識を少なくし,より堅牢であることを示す。
未学習の学習者は誰でも市場から追い出され、有限の事前または更新ルールが小さな誤りを犯すような不完全なベイジアンになる。
我々は、経済的に研究された生存、消滅、市場支配の概念と後悔の最小化の枠組みとの関係を正式に確立し、これらの理論を橋渡しする。
関連論文リスト
- Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - No-Regret Learning in Bilateral Trade via Global Budget Balance [29.514323697659613]
我々は、様々なフィードバックモデルの下で、敵対的二元貿易のための最初のノンレグレットアルゴリズムを提供する。
フルフィードバックモデルでは、学習者は後見の最高の固定価格に対して$tilde O(sqrtT)$ regretを保証できる。
また,1ビットフィードバックを伴って,$tilde O(T3/4)$ regret upper boundを保証した学習アルゴリズムも提供する。
論文 参考訳(メタデータ) (2023-10-18T22:34:32Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Fundamental Bounds on Online Strategic Classification [13.442155854812528]
戦略設定において,決定論的アルゴリズムが$o(Delta)$の誤りを達成できないことを示す。
また、これを非依存の設定に拡張し、$Delta$乗法後悔のアルゴリズムを得る。
我々は,不愉快な,適応的な両敵に対して,サブ線形後悔境界を実現するランダム化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-02-23T22:39:43Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Learning Equilibria in Matching Markets from Bandit Feedback [139.29934476625488]
不確実性の下で安定した市場成果を学習するためのフレームワークとアルゴリズムを開発する。
私たちの研究は、大規模なデータ駆動の市場において、いつ、どのように安定したマッチングが生じるかを明らかにするための第一歩を踏み出します。
論文 参考訳(メタデータ) (2021-08-19T17:59:28Z) - Dynamic Pricing and Learning under the Bass Model [16.823029377470366]
マーケットサイズが$m$である場合、オーダー$tilde O(m2/3)$の確率後悔保証を満足するアルゴリズムを開発する。
多くの後悔の分析結果とは異なり、現在の問題では市場規模$m$が複雑さの基本的な要因である。
論文 参考訳(メタデータ) (2021-03-09T03:27:33Z) - Hedging using reinforcement learning: Contextual $k$-Armed Bandit versus
$Q$-learning [0.22940141855172028]
本稿では,リスクと市場摩擦の存在下での連関債権の複製戦略の構築について検討する。
本稿では、ヘッジ問題はリスク・アバース文脈における$k$-armed bandit問題の例と見なされる。
私たちは、$k$の武器付きバンディットモデルが、ヘッジの利益と損失の定式化に自然に適合していることに気付きました。
論文 参考訳(メタデータ) (2020-07-03T11:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。