論文の概要: Prediction Arena: Benchmarking AI Models on Real-World Prediction Markets
- arxiv url: http://arxiv.org/abs/2604.07355v1
- Date: Sat, 28 Mar 2026 06:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.660197
- Title: Prediction Arena: Benchmarking AI Models on Real-World Prediction Markets
- Title(参考訳): 予測領域: 現実の予測市場におけるAIモデルのベンチマーク
- Authors: Jaden Zhang, Gardenia Liu, Oliver Johansson, Hileamlak Yitayew, Kamryn Ohly, Grace Li,
- Abstract要約: Prediction Arenaは、AIモデルの予測精度と意思決定を評価するためのベンチマークである。
ライブトレーディングにおける6つのフロンティアモデル(Cohort 1, full period)と、ペーパートレーディングにおける4つの次世代モデル(Cohort 2, 3-day pre)の2つのコホートを追跡。
我々の分析では、初期予測精度と正しい予測を活用できる能力が主な要因である、明確な性能階層を同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Prediction Arena, a benchmark for evaluating AI models' predictive accuracy and decision-making by enabling them to trade autonomously on live prediction markets with real capital. Unlike synthetic benchmarks, Prediction Arena tests models in environments where trades execute on actual exchanges (Kalshi and Polymarket), providing objective ground truth that cannot be gamed or overfitted. Each model operates as an independent agent starting with $10,000, making autonomous decisions every 15-45 minutes. Over a 57-day longitudinal evaluation (January 12 to March 9, 2026), we track two cohorts: six frontier models in live trading (Cohort 1, full period) and four next-generation models in paper trading (Cohort 2, 3-day preliminary). For Cohort 1, final Kalshi returns range from -16.0% to -30.8%. Our analysis identifies a clear performance hierarchy: initial prediction accuracy and the ability to capitalize on correct predictions are the main drivers, while research volume shows no correlation with outcomes. A striking cross-platform contrast emerges from parallel Polymarket live trading: Cohort 1 models averaged only -1.1% on Polymarket vs. -22.6% on Kalshi, with grok-4-20-checkpoint achieving a 71.4% settlement win rate - the highest across any platform or cohort. gemini-3.1-pro-preview (Cohort 2), which executed zero trades on Kalshi, achieved +6.02% on Polymarket in 3 days - the best return of any model across either cohort - demonstrating that platform design has a profound effect on which models succeed. Beyond performance, we analyze computational efficiency (token usage, cycle time), settlement accuracy, exit patterns, and market preferences, providing a comprehensive view of how frontier models behave under real financial pressure.
- Abstract(参考訳): 我々は、AIモデルの予測精度と意思決定を評価するためのベンチマークであるPrediction Arenaを紹介した。
合成ベンチマークとは異なり、予測アリーナは取引が実際の取引で実行される環境(カルシとポリマーケット)でモデルをテストする。
各モデルは1万ドルから独立したエージェントとして動作し、15分から45分毎に自律的な決定を行う。
57日間の長期評価(2026年1月12日~3月9日)では、生取引における6つのフロンティアモデル(Cohort 1, full period)と紙取引における4つの次世代モデル(Cohort 2, 3-day pre)の2つのコホートが追跡されている。
コホート1では、最終カルシのリターンは-16.0%から-30.8%である。
本分析では,初期予測精度と正しい予測に乗じることができる能力が主要因であり,研究量と結果との相関は示されていない。
コホート1モデルはポリマーケットで-1.1%、カルシで-22.6%、グラク-4-20チェックポイントは71.4%、どのプラットフォームやコホートでも最高である。
gemini-3.1-pro-preview (Cohort 2)は、カルシでのゼロ取引を実行し、3日間でポリマーケットで+6.02%を達成した。
パフォーマンス以外にも、計算効率(トーケン使用率、サイクルタイム)、解決精度、出口パターン、市場嗜好を分析し、実際の金融圧力下でのフロンティアモデルがどのように振る舞うかを包括的に把握する。
関連論文リスト
- TimeSeek: Temporal Reliability of Agentic Forecasters [0.5352699766206807]
モデルは、市場の初期段階や高い不確実性市場において最も競争力があるが、解像度に近い市場や強いコンセンサス市場では競争力ははるかに低い。
Web検索は、すべてのモデルに対して、プールされたBrier Skill Score(BSS)を改善するが、モデルチェックポイントペアの12%が問題になる。
単純な2モデルアンサンブルは、市場全体を上回ることなくエラーを低減する。
論文 参考訳(メタデータ) (2026-04-05T18:38:39Z) - Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis [1.2362187555287152]
本稿では,ノードトランスアーキテクチャとBERTに基づく感情分析を組み合わせた株価予測フレームワークを提案する。
提案モデルは,個々の株式がノードを形成し,エッジが関係をキャプチャするグラフ構造として,株式市場を表現している。
1982年1月から2025年3月までの20株のS&P500株に対する実験では、統合モデルが平均絶対パーセンテージ誤差(MAPE)を1日の予測で0.80%達成していることが示されている。
論文 参考訳(メタデータ) (2026-03-06T05:15:22Z) - Hybrid Quantum-Classical Ensemble Learning for S\&P 500 Directional Prediction [0.2538209532048867]
本稿では,量子感情分析,決定変換アーキテクチャ,戦略的モデル選択を組み合わせたハイブリッドアンサンブルフレームワークを提案する。
S&P500予測の方向精度は60.14%で、個々のモデルよりも3.10%向上している。
論文 参考訳(メタデータ) (2025-12-06T22:22:09Z) - Forecasting Frontier Language Model Agent Capabilities [0.7499722271664147]
言語モデル(LM)の下流能力を予測する6つの予測手法を評価する。
計算やモデルリリース日などの入力メトリクスからベンチマークスコアを直接予測する"ワンステップ"アプローチや、クロスベンチマークパフォーマンス(PC-1)や人間による競争力のあるElo評価といった中間メトリックを最初に予測する"ツーステップ"アプローチを採用しています。
当社の予測では,2026年初めまでに,能力の低い非特殊化LMエージェントがSWE-Bench Verifiedで54%,最先端LMエージェントが87%の成功率に達すると予測されている。
論文 参考訳(メタデータ) (2025-02-21T02:34:17Z) - Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。
データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。
概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文 参考訳(メタデータ) (2023-06-26T13:06:34Z) - Stock Price Prediction Under Anomalous Circumstances [81.37657557441649]
本稿では,異常な状況下での株価の変動パターンを捉えることを目的とする。
ARIMAとLSTMのモデルは、シングルストックレベル、業界レベル、一般市場レベルでトレーニングします。
2016年から2020年にかけての100社の株価に基づいて、平均予測精度は98%に達した。
論文 参考訳(メタデータ) (2021-09-14T18:50:38Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Feature Learning for Stock Price Prediction Shows a Significant Role of
Analyst Rating [0.38073142980733]
5つの技術的指標と23の基本的な指標が特定され、株式市場で過剰なリターンを生み出す可能性を確立した。
いずれの日でも、将来的には、価格変化の方向を1%から10日間まで予測することができました。
予測の精度は83.62%で、購入信号の精度は85%、販売信号のリコールは100%であった。
論文 参考訳(メタデータ) (2021-03-13T03:56:29Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。