論文の概要: Neural Sabermetrics with World Model: Play-by-play Predictive Modeling with Large Language Model
- arxiv url: http://arxiv.org/abs/2602.07030v1
- Date: Mon, 02 Feb 2026 23:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.377424
- Title: Neural Sabermetrics with World Model: Play-by-play Predictive Modeling with Large Language Model
- Title(参考訳): 世界モデルを用いたニューラルサーベルメトリック:大規模言語モデルを用いたプレイ・バイ・プレイ予測モデル
- Authors: Young Jin Ahn, Yiyang Du, Zheyuan Zhang, Haisen Kang,
- Abstract要約: 本稿では,野球のプレイバイプレイワールドモデルであるワールドモデルを用いたニューラルセイバーメトリックスを提案する。
野球の試合を,メジャーリーグベースボール(MLB)の10年以上の追跡データに基づいて,長期にわたる自己回帰的なイベントのシーケンスとして,単一大言語モデル(LLM)を継続的に事前訓練した。
結果として得られるモデルは、統合されたフレームワーク内でのゲーム進化の複数の側面を予測することができる。
- 参考スコア(独自算出の注目度): 12.123745125923731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical sabermetrics has profoundly shaped baseball analytics by summarizing long histories of play into compact statistics. While these metrics are invaluable for valuation and retrospective analysis, they do not define a generative model of how baseball games unfold pitch by pitch, leaving most existing approaches limited to single-step prediction or post-hoc analysis. In this work, we present Neural Sabermetrics with World Model, a Large Language Model (LLM) based play-by-play world model for baseball. We cast baseball games as long auto-regressive sequences of events and continuously pretrain a single LLM on more than ten years of Major League Baseball (MLB) tracking data, comprising over seven million pitch sequences and approximately three billion tokens. The resulting model is capable of predicting multiple aspects of game evolution within a unified framework. We evaluate our model on both in-distribution regular-season data and out-of-distribution postseason games and compare against strong neural baselines from prior work. Despite using a single backbone model, our approach outperforms the performance of existing baselines, (1) correctly predicting approximately 64% of next pitches within a plate appearance and (2) 78% of batter swing decisions, suggesting that LLMs can serve as effective world models for sports.
- Abstract(参考訳): 古典的なサーベルメトリックスは、長い歴史をコンパクトな統計にまとめることで、野球の分析を深く形作っている。
これらの指標は評価や振り返り分析には有用ではないが、野球の試合がピッチによってピッチを広げる方法の生成モデルを定義しておらず、既存のアプローチはシングルステップの予測やポストホック分析に限られている。
本研究では,Large Language Model (LLM)をベースとした野球ワールドモデルであるNeural Sabermetrics with World Modelを提案する。
野球の試合を長時間の自己回帰的なイベントとしてキャストし、メジャーリーグベースボール(MLB)の10年以上の追跡データにおいて、700万以上のピッチシーケンスと約30億のトークンからなる1つのLDMを継続的に事前訓練した。
結果として得られるモデルは、統合されたフレームワーク内でのゲーム進化の複数の側面を予測することができる。
我々は,本モデルについて,非分配正規シーズンデータとアウト・オブ・ディストリビューションポストシーズンゲームの両方で評価し,前作の強い神経ベースラインと比較した。
1つのバックボーンモデルを用いても,(1)プレートの外観内での次のピッチの約64%を正確に予測し,(2)バッタースイング決定の78%を正確に予測し,LLMがスポーツの効果的な世界モデルとして機能することが示唆された。
関連論文リスト
- Long-Sequence LSTM Modeling for NBA Game Outcome Prediction Using a Novel Multi-Season Dataset [0.5039813366558307]
2004-05シーズンから2024-25シーズンにかけてのNBAデータセットを新たに構築した。
本稿では,長期的パフォーマンストレンドをモデル化するためのディープラーニングフレームワークを提案する。
LSTMは72.35の精度、73.15の精度、76.13のAUC-ROCで全ての指標で最高の性能を達成している。
論文 参考訳(メタデータ) (2025-12-09T13:32:41Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。
YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。
我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-05-20T14:31:06Z) - Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。
予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。
2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - ShuttleSHAP: A Turn-Based Feature Attribution Approach for Analyzing
Forecasting Models in Badminton [52.21869064818728]
バドミントンにおけるプレイヤー戦術予測のための深層学習アプローチは、部分的にはラリープレイヤの相互作用に関する効果的な推論に起因する有望なパフォーマンスを示している。
本稿では,Shapley値の変量に基づいてバドミントンにおける予測モデルを解析するためのターンベース特徴属性手法であるShuttleSHAPを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:37:51Z) - Lag-Llama: Towards Foundation Models for Probabilistic Time Series
Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。
Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。
このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-12T12:29:32Z) - Performance Prediction in Major League Baseball by Long Short-Term
Memory Networks [0.35092739016434554]
我々は,メジャーリーグ野球におけるホームラン予測問題の解法として,時系列モデルロング短期記憶を主手法として用いた。
以上の結果から,長期記憶は他より優れた性能を示し,より正確な予測を行うことができることがわかった。
論文 参考訳(メタデータ) (2022-06-20T09:01:44Z) - Computing an Optimal Pitching Strategy in a Baseball At-Bat [19.933511825856126]
野球のat-batは、投手とバッターのマッチアップです。
ゼロサムゲームとして,この出会いの新たなモデルを提案する。
原則として、このゲームは古典的なアプローチで解決できる。
論文 参考訳(メタデータ) (2021-10-08T18:09:08Z) - Machine learning models for DOTA 2 outcomes prediction [8.388178167818635]
本研究は,Dota 2 MOBAゲームの結果を特定するための予測機械学習モデルとディープラーニングモデルの構築に主に焦点をあてる。
リニア回帰(LR)、ニューラルネットワーク(NN)、リカレントニューラルネットワーク(LSTM)の3つのモデルについて検討・比較を行った。
論文 参考訳(メタデータ) (2021-06-03T12:10:26Z) - Markov Cricket: Using Forward and Inverse Reinforcement Learning to
Model, Predict And Optimize Batting Performance in One-Day International
Cricket [0.8122270502556374]
我々は1日の国際クリケットゲームをマルコフプロセスとしてモデル化し、前向きおよび逆強化学習(RL)を適用してゲームのための3つの新しいツールを開発する。
本手法は,残余スコアリング資源のプロキシとして使用する場合,最先端のDuckworth-Lewis-Stern法を3倍から10倍に向上させることを示す。
予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
論文 参考訳(メタデータ) (2021-03-07T13:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。