論文の概要: Revisiting the Bertrand Paradox via Equilibrium Analysis of No-regret Learners
- arxiv url: http://arxiv.org/abs/2602.21620v1
- Date: Wed, 25 Feb 2026 06:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.726452
- Title: Revisiting the Bertrand Paradox via Equilibrium Analysis of No-regret Learners
- Title(参考訳): 非学習者の平衡分析によるベルトランドパラドックスの再検討
- Authors: Arnab Maiti, Junyan Liu, Kevin Jamieson, Lillian J. Ratliff,
- Abstract要約: 本研究では,非増加需要関数を用いた離散的Bertrand価格ゲームについて検討する。
我々は,非学習者を用いて企業が価格を設定できる繰り返しゲームモデルを分析する。
- 参考スコア(独自算出の注目度): 16.475146305668442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the discrete Bertrand pricing game with a non-increasing demand function. The game has $n \ge 2$ players who simultaneously choose prices from the set $\{1/k, 2/k, \ldots, 1\}$, where $k\in\mathbb{N}$. The player who sets the lowest price captures the entire demand; if multiple players tie for the lowest price, they split the demand equally. We study the Bertrand paradox, where classical theory predicts low prices, yet real markets often sustain high prices. To understand this gap, we analyze a repeated-game model in which firms set prices using no-regret learners. Our goal is to characterize the equilibrium outcomes that can arise under different no-regret learning guarantees. We are particularly interested in questions such as whether no-external-regret learners can converge to undesirable high-price outcomes, and how stronger guarantees such as no-swap regret shape the emergence of competitive low-price behavior. We address these and related questions through a theoretical analysis, complemented by experiments that support the theory and reveal surprising phenomena for no-swap regret learners.
- Abstract(参考訳): 本研究では,非増加需要関数を用いた離散的Bertrand価格ゲームについて検討する。
ゲームには$n \ge 2$プレーヤーがあり、セットの$\{1/k, 2/k, \ldots, 1\}$から同時に価格を選択する。
最低価格を設定するプレイヤーは需要全体を捉え、複数のプレイヤーが最低価格で結びつくと、需要は均等に分配される。
我々は、古典理論が低価格を予想するベルトランドパラドックスを研究するが、実際の市場は高価格をしばしば維持する。
このギャップを理解するために,非学習者を用いた価格設定を企業が繰り返し行うゲームモデルを分析した。
我々のゴールは、異なる非回帰学習保証の下で生じる均衡結果を特徴づけることです。
特に,非外部学習者が望ましくない高価格の成果に収束できるかどうか,また,非スワップ後悔などの保証が競争力のある低価格の行動の出現を形作るかといった疑問に関心がある。
本稿では,この理論を裏付ける実験によって補完される理論解析を通じて,これらの問題と関連する問題に対処する。
関連論文リスト
- Online Learning for Uninformed Markov Games: Empirical Nash-Value Regret and Non-Stationarity Adaptation [54.274028560515454]
対戦相手の行動や方針が守られない2人プレイヤのマルコフゲームにおいて,オンライン学習を学習する。
経験的ナッシュバリュー後悔は,ナッシュバリュー後悔よりも強く,新たな後悔の概念である。
我々は,このアルゴリズムを,相手の潜在的非定常性に応じて適切な$で適応的に再起動する方法を示す。
論文 参考訳(メタデータ) (2026-02-06T21:25:54Z) - Adversarial Learning in Games with Bandit Feedback: Logarithmic Pure-Strategy Maximin Regret [64.73231630190121]
ゼロサムゲームを学ぶことは、ゲーム理論と機械学習の基本的な問題である。
ビジットフィードバックによるゼロサムゲームにおける対戦学習について検討し,最大戦略に対する障害を最小限に抑えることを目的とした。
我々は,Tsallis-INFアルゴリズムがゲーム依存パラメータ$c$で$O(c log T)$インスタンス依存後悔を実現することを示す。
論文 参考訳(メタデータ) (2026-02-06T03:26:01Z) - Learning to Charge More: A Theoretical Study of Collusion by Q-Learning Agents [9.053163124987535]
無限反復ゲームにおいて、この振る舞いに関する最初の理論的説明を提供する。
ゲームが1段階のナッシュ均衡価格と共謀誘発価格の両方を許容すると、企業は相反する価格を一貫して請求することを学ぶ。
論文 参考訳(メタデータ) (2025-05-28T22:18:35Z) - Revenue Maximization Under Sequential Price Competition Via The Estimation Of s-Concave Demand Functions [24.776097647623754]
半パラメトリック最小二乗推定を用いた動的価格ポリシーを提案する。
我々は,販売者が当社の方針を採用すると,その価格がナッシュ均衡価格に対して$O(T-1/7)のレートで収束することを示す。
論文 参考訳(メタデータ) (2025-03-20T22:51:03Z) - Swap Regret and Correlated Equilibria Beyond Normal-Form Games [62.01542145970044]
「我々は、プロファイルスワップ後悔と呼ぶポリトープゲームのスワップ後悔の新しい変種を提示する。」
プロファイルスワップ後悔は、プレイの書き起こしが与えられた場合、NPハードであることが示されるが、少なくとも$O(sqrtT)$プロファイルスワップ後悔を保証する効率的な学習アルゴリズムを設計することは可能である。
論文 参考訳(メタデータ) (2025-02-27T16:16:26Z) - Instance-Dependent Regret Bounds for Learning Two-Player Zero-Sum Games with Bandit Feedback [60.610120215789976]
純粋な戦略 ナッシュ均衡が存在するとき、$c$ は 0 となり、最適のインスタンス依存後悔境界となることを示す。
また,本アルゴリズムは最終段階の収束性も享受し,ほぼ最適サンプルを用いて純粋な戦略ナッシュ均衡を同定することができる。
論文 参考訳(メタデータ) (2025-02-24T20:20:06Z) - Barriers to Welfare Maximization with No-Regret Learning [68.66209476382213]
我々は、ほぼ最適の$T$-sparse CCEの計算限界を低く証明する。
特に,最大傾斜角の不適応性は,時間内に非自明な間隔を達成できないことを示す。
論文 参考訳(メタデータ) (2024-11-04T00:34:56Z) - Is Learning in Games Good for the Learners? [14.781100349601587]
2人のエージェント間の繰り返しのゲームプレイにおいて、報酬と後悔の間のトレードオフを考慮する。
このような平衡は、任意の相手に対する後悔の保証を維持するアルゴリズムのペアによって到達可能であることを示す。
また,ゲーム開始時において,未学習エージェントとの繰り返しプレイを通じて報酬-最適戦略を学習する問題についても検討する。
論文 参考訳(メタデータ) (2023-05-31T02:10:27Z) - No-regret learning and mixed Nash equilibria: They do not mix [64.37511607254115]
我々はFTRL(Follow-the-regularized-leader)のダイナミクスについて検討する。
厳密でないナッシュ均衡は、FTRLの下で安定して引き寄せることは不可能である。
この結果は,学習過程の結果を予測する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2020-10-19T13:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。