論文の概要: Markov Cricket: Using Forward and Inverse Reinforcement Learning to
Model, Predict And Optimize Batting Performance in One-Day International
Cricket
- arxiv url: http://arxiv.org/abs/2103.04349v1
- Date: Sun, 7 Mar 2021 13:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 19:49:39.245946
- Title: Markov Cricket: Using Forward and Inverse Reinforcement Learning to
Model, Predict And Optimize Batting Performance in One-Day International
Cricket
- Title(参考訳): Markov Cricket: 1日の国際クリケットにおけるベッティングパフォーマンスのモデル化、予測、最適化にフォワードと逆強化学習を使う
- Authors: Manohar Vohra and George S. D. Gordon
- Abstract要約: 我々は1日の国際クリケットゲームをマルコフプロセスとしてモデル化し、前向きおよび逆強化学習(RL)を適用してゲームのための3つの新しいツールを開発する。
本手法は,残余スコアリング資源のプロキシとして使用する場合,最先端のDuckworth-Lewis-Stern法を3倍から10倍に向上させることを示す。
予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
- 参考スコア(独自算出の注目度): 0.8122270502556374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we model one-day international cricket games as Markov
processes, applying forward and inverse Reinforcement Learning (RL) to develop
three novel tools for the game. First, we apply Monte-Carlo learning to fit a
nonlinear approximation of the value function for each state of the game using
a score-based reward model. We show that, when used as a proxy for remaining
scoring resources, this approach outperforms the state-of-the-art
Duckworth-Lewis-Stern method used in professional matches by 3 to 10 fold.
Next, we use inverse reinforcement learning, specifically a variant of
guided-cost learning, to infer a linear model of rewards based on expert
performances, assumed here to be play sequences of winning teams. From this
model we explicitly determine the optimal policy for each state and find this
agrees with common intuitions about the game. Finally, we use the inferred
reward models to construct a game simulator that models the posterior
distribution of final scores under different policies. We envisage our
prediction and simulation techniques may provide a fairer alternative for
estimating final scores in interrupted games, while the inferred reward model
may provide useful insights for the professional game to optimize playing
strategy. Further, we anticipate our method of applying RL to this game may
have broader application to other sports with discrete states of play where
teams take turns, such as baseball and rounders.
- Abstract(参考訳): 本稿では,1日の国際クリケット競技をマルコフプロセスとしてモデル化し,フォワードおよびインバース強化学習(rl)を適用し,新たな3つのツールを開発した。
まず,モンテカルロ学習をスコアに基づく報酬モデルを用いて,ゲームの各状態に対する値関数の非線形近似に適用する。
本手法は,残るスコアリング資源のプロキシとして使用する場合,プロの試合で使用されるダックワース・ルイス・ステルン法を3倍から10倍に上回っている。
次に、逆強化学習(特にガイド付きコスト学習の変種)を用いて、エキスパートのパフォーマンスに基づいて報酬の線形モデルを推論し、ここでは勝利チームのプレーシーケンスと仮定する。
このモデルから各状態に対する最適ポリシーを明示的に決定し、ゲームに関する一般的な直観と一致することを見つける。
最後に、推定報酬モデルを用いて、異なるポリシーの下で最終スコアの後方分布をモデル化するゲームシミュレータを構築する。
予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
さらに,この競技にRLを適用する方法が,野球や球技など,チームが交互にプレーする個別の状態のスポーツに広く適用される可能性があることを期待する。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - ShuttleSHAP: A Turn-Based Feature Attribution Approach for Analyzing
Forecasting Models in Badminton [52.21869064818728]
バドミントンにおけるプレイヤー戦術予測のための深層学習アプローチは、部分的にはラリープレイヤの相互作用に関する効果的な推論に起因する有望なパフォーマンスを示している。
本稿では,Shapley値の変量に基づいてバドミントンにおける予測モデルを解析するためのターンベース特徴属性手法であるShuttleSHAPを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:37:51Z) - Optimizing Offensive Gameplan in the National Basketball Association
with Machine Learning [0.0]
ORTG (Offensive Rating) はディーン・オリバーによって開発された。
本稿では,NBAのプレイタイプと統計ORTGの相関関係について検討した。
モデルの精度を正当化するために、次のステップはモデルの出力を最適化することであった。
論文 参考訳(メタデータ) (2023-08-13T22:03:35Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - A Ranking Game for Imitation Learning [22.028680861819215]
模倣を、$textitpolicy$と$textitreward$関数の間の2プレイヤーランキングベースのStackelbergゲームとして扱う。
このゲームは、オフラインの好みから学習する逆強化学習(IRL)法と方法の両方の多くのサブセットを含んでいる。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
論文 参考訳(メタデータ) (2022-02-07T19:38:22Z) - Enhancing Trajectory Prediction using Sparse Outputs: Application to
Team Sports [6.26476800426345]
プレイヤー予測のためにディープラーニングモデルをトレーニングするのは、驚くほど難しいかもしれません。
本研究では,スパース軌道の予測と一定加速度による補間によりトレーニングを改善する新しい手法を提案する。
我々は,他の選手の完全な軌跡を条件にすることで,プレイヤーのサブセットに対する予測軌跡の精度を向上できることを見出した。
論文 参考訳(メタデータ) (2021-06-01T01:43:19Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Optimising Game Tactics for Football [18.135001427294032]
サッカーにおける戦術的・戦略的意思決定を最適化するための新しいアプローチを提案する。
我々は,サッカーをベイズゲームから構成したマルチステージゲームとしてモデル化し,プレマッチ決定をモデル化し,インマッチ状態遷移と決定をモデル化する。
これに基づいて、異なる目的でチーム形成とゲーム内戦術を最適化するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-03-23T14:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。