論文の概要: Optimal Online Bookmaking for Any Number of Outcomes
- arxiv url: http://arxiv.org/abs/2506.16253v1
- Date: Thu, 19 Jun 2025 12:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.059946
- Title: Optimal Online Bookmaking for Any Number of Outcomes
- Title(参考訳): あらゆるアウトカムに対する最適オンラインブックメイキング
- Authors: Hadar Tal, Oron Sabag,
- Abstract要約: 本稿では,オンラインブックメイキングの課題について考察する。そこでは,オンラインブックメーカがイベントの起こりうる結果に賭ける確率を動的に更新する。
どんなイベントでも、どんな賭けラウンドでも、ブックメーカの最適損失は、単純さの最大の根源であることを示す。
当社のソリューションは、財務リスクを回避しながら、帳簿作成者ができるだけ公平であることを示し、明示的な特徴は、本書作成者の後悔とハーミッツの関係が興味深いことを示している。
- 参考スコア(独自算出の注目度): 6.0158981171030685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the Online Bookmaking problem, where a bookmaker dynamically updates betting odds on the possible outcomes of an event. In each betting round, the bookmaker can adjust the odds based on the cumulative betting behavior of gamblers, aiming to maximize profit while mitigating potential loss. We show that for any event and any number of betting rounds, in a worst-case setting over all possible gamblers and outcome realizations, the bookmaker's optimal loss is the largest root of a simple polynomial. Our solution shows that bookmakers can be as fair as desired while avoiding financial risk, and the explicit characterization reveals an intriguing relation between the bookmaker's regret and Hermite polynomials. We develop an efficient algorithm that computes the optimal bookmaking strategy: when facing an optimal gambler, the algorithm achieves the optimal loss, and in rounds where the gambler is suboptimal, it reduces the achieved loss to the optimal opportunistic loss, a notion that is related to subgame perfect Nash equilibrium. The key technical contribution to achieve these results is an explicit characterization of the Bellman-Pareto frontier, which unifies the dynamic programming updates for Bellman's value function with the multi-criteria optimization framework of the Pareto frontier in the context of vector repeated games.
- Abstract(参考訳): 本稿では,オンラインブックメイキングの課題について考察する。そこでは,オンラインブックメーカがイベントの起こりうる結果に賭ける確率を動的に更新する。
各賭けラウンドでは、ギャンブラーの累積賭け行動に基づいて、潜在的損失を軽減しつつ利益を最大化することを目的としたオッズを調整できる。
任意の事象や何回もの賭けラウンドに対して、可能なギャンブラーと結果実現に関する最悪の場合において、ブックメーカの最適損失は単純な多項式の最大の根であることを示す。
本手法は, 財務リスクを回避しながら, 書籍製作者が希望通りに公正であることを示し, 明示的な特徴は, 書籍製作者の後悔とハーマイト多項式の関係を興味深いものにすることを示している。
最適なギャンブラーに直面すると、最適な損失を達成し、また、ギャンブラーが最適以下であるラウンドでは、達成された損失を最適機会損失に還元し、サブゲーム完全ナッシュ均衡に関連付ける。
これらの結果を達成するための重要な技術的貢献はベルマン・パレート・フロンティアの明示的な特徴であり、ベクター繰り返しゲームのコンテキストにおけるパレート・フロンティアの多重基準最適化フレームワークとベルマンの値関数の動的プログラミング更新を統一するものである。
関連論文リスト
- Optimal Online Bookmaking for Binary Games [19.70394327203169]
最悪の場合のリターンを最大化することを目的として,本作成の問題について検討する。
我々はこの問題をemph Optimal Online Bookmakingゲームとして定式化し、バイナリケースの正確な解決策を提供する。
論文 参考訳(メタデータ) (2025-01-12T20:23:46Z) - LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - Best of Both Worlds Guarantees for Smoothed Online Quadratic Optimization [9.449153668916098]
各ラウンド$t$において、プレイヤーが2次的打撃コストと2次攻撃コストに応じてアクション$x_tをプレイし、アクションを切り替えるための2乗$ell$-normコストを加算する、スムーズなオンライン最適化(SOQO)問題について検討する。
この問題クラスは、スマートグリッド管理、適応制御、データセンター管理など、幅広いアプリケーションドメインと強いつながりを持っています。
本稿では, 最適に近い性能を同時に達成しつつ, 強健な対角性能を得るベスト・オブ・ザ・ワールドス・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-31T22:59:23Z) - High-Dimensional Prediction for Sequential Decision Making [9.684829814477526]
本研究では,任意の条件付けイベントの収集対象である逆選択された高次元状態の予測を行う問題について検討する。
この問題を解決するための効率的なアルゴリズムと、適切な条件付けイベントを選択することに起因する多くのアプリケーションを提供します。
論文 参考訳(メタデータ) (2023-10-26T17:59:32Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Optimal strategies in the Fighting Fantasy gaming system: influencing
stochastic dynamics by gambling with limited resource [0.0]
Fighting Fantasyは、世界で人気のあるレクリエーションファンタジーゲームシステムである。
各ラウンドでは、限られた資源(Luck')がギャンブルに費やされ、勝利の利益を増幅したり、損失から赤字を軽減したりすることができる。
我々は,システムに対するベルマン方程式の解法と,ゲーム中の任意の状態に対する最適な戦略を特定するために,後方帰納法を用いる。
論文 参考訳(メタデータ) (2020-02-24T11:31:25Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。