論文の概要: Markets with Heterogeneous Agents: Dynamics and Survival of Bayesian vs. No-Regret Learners
- arxiv url: http://arxiv.org/abs/2502.08597v2
- Date: Wed, 25 Jun 2025 18:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 13:31:57.654407
- Title: Markets with Heterogeneous Agents: Dynamics and Survival of Bayesian vs. No-Regret Learners
- Title(参考訳): 不均質なエージェントによる市場:ベイジアン対非学習者のダイナミクスと生存
- Authors: David Easley, Yoav Kolumbus, Eva Tardos,
- Abstract要約: 資産市場における異種学習エージェントのパフォーマンスをペイオフで分析する。
驚いたことに、低い後悔は生き残るには不十分だ。
非回帰学習は環境に関する知識を少なくするので、より堅牢である。
- 参考スコア(独自算出の注目度): 3.985264439635754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze the performance of heterogeneous learning agents in asset markets with stochastic payoffs. Our main focus is on comparing Bayesian learners and no-regret learners who compete in markets and identifying the conditions under which each approach is more effective. Surprisingly, we find that low regret is not sufficient for survival: an agent can have regret as low as $O(\log T)$ but still vanish when competing against a Bayesian with a finite prior and any positive prior probability on the correct model. On the other hand, we show that Bayesian learning is fragile, while no-regret learning requires less knowledge of the environment and is therefore more robust. Motivated by the strengths and weaknesses of both approaches, we propose a balanced strategy for utilizing Bayesian updates that improves robustness and adaptability to distribution shifts, providing a step toward a best-of-both-worlds learning approach. The method is general, efficient, and easy to implement. Finally, we formally establish the relationship between the notions of survival and market dominance studied in economics and the framework of regret minimization, thus bridging these theories. More broadly, our work contributes to the understanding of dynamics with heterogeneous types of learning agents and their impact on markets.
- Abstract(参考訳): 確率的ペイオフを用いた資産市場における異種学習エージェントの性能分析を行った。
我々の主な焦点は、ベイズ学習者と市場で競争する非学習者を比較し、それぞれのアプローチがより効果的である条件を特定することである。
エージェントは、$O(\log T)$ほど低い後悔を持つことができるが、有限の事前と正のモデル上の任意の正の事前確率を持つベイズアンと競合する場合、いまだに消える。
一方,ベイズ学習は脆弱であり,非回帰学習は環境に関する知識を少なくし,より堅牢であることを示す。
両アプローチの長所と短所に触発され,ベイジアン更新を活用するためのバランスのとれた戦略を提案し,分散シフトに対する堅牢性と適応性を向上し,両者のベスト・オブ・ワールド・ラーニング・アプローチへの一歩を踏み出した。
この方法は汎用的で効率的で実装が容易です。
最後に、我々は、経済学における生存の概念と市場の優位性と、後悔の最小化の枠組みとの関係を正式に確立し、これらの理論を橋渡しする。
より広範に、我々の研究は、異種学習エージェントによるダイナミクスの理解と市場への影響に寄与している。
関連論文リスト
- No-Regret Learning in Bilateral Trade via Global Budget Balance [29.514323697659613]
我々は、様々なフィードバックモデルの下で、敵対的二元貿易のための最初のノンレグレットアルゴリズムを提供する。
フルフィードバックモデルでは、学習者は後見の最高の固定価格に対して$tilde O(sqrtT)$ regretを保証できる。
また,1ビットフィードバックを伴って,$tilde O(T3/4)$ regret upper boundを保証した学習アルゴリズムも提供する。
論文 参考訳(メタデータ) (2023-10-18T22:34:32Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Fundamental Bounds on Online Strategic Classification [13.442155854812528]
戦略設定において,決定論的アルゴリズムが$o(Delta)$の誤りを達成できないことを示す。
また、これを非依存の設定に拡張し、$Delta$乗法後悔のアルゴリズムを得る。
我々は,不愉快な,適応的な両敵に対して,サブ線形後悔境界を実現するランダム化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-02-23T22:39:43Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Learning Equilibria in Matching Markets from Bandit Feedback [139.29934476625488]
不確実性の下で安定した市場成果を学習するためのフレームワークとアルゴリズムを開発する。
私たちの研究は、大規模なデータ駆動の市場において、いつ、どのように安定したマッチングが生じるかを明らかにするための第一歩を踏み出します。
論文 参考訳(メタデータ) (2021-08-19T17:59:28Z) - Dynamic Pricing and Learning under the Bass Model [16.823029377470366]
マーケットサイズが$m$である場合、オーダー$tilde O(m2/3)$の確率後悔保証を満足するアルゴリズムを開発する。
多くの後悔の分析結果とは異なり、現在の問題では市場規模$m$が複雑さの基本的な要因である。
論文 参考訳(メタデータ) (2021-03-09T03:27:33Z) - Hedging using reinforcement learning: Contextual $k$-Armed Bandit versus
$Q$-learning [0.22940141855172028]
本稿では,リスクと市場摩擦の存在下での連関債権の複製戦略の構築について検討する。
本稿では、ヘッジ問題はリスク・アバース文脈における$k$-armed bandit問題の例と見なされる。
私たちは、$k$の武器付きバンディットモデルが、ヘッジの利益と損失の定式化に自然に適合していることに気付きました。
論文 参考訳(メタデータ) (2020-07-03T11:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。