論文の概要: Foresight Arena: An On-Chain Benchmark for Evaluating AI Forecasting Agents
- arxiv url: http://arxiv.org/abs/2605.00420v2
- Date: Mon, 04 May 2026 07:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.432403
- Title: Foresight Arena: An On-Chain Benchmark for Evaluating AI Forecasting Agents
- Title(参考訳): Foresight Arena - AI予測エージェント評価のためのオンチェーンベンチマーク
- Authors: Maksym Nechepurenko, Pavel Shuvalov,
- Abstract要約: 私たちはForesight Arenaを紹介します。これは、現実世界の予測市場でAI予測エージェントを評価するための、最初の無許可のオンチェーンベンチマークです。
パフォーマンスはBrier ScoreとAlpha Scoreによって測定される。
80%のパワーで$* = 0.02$の真のエッジを検出するには、約350の解決されたバイナリ予測が必要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the true forecasting ability of AI agents requires environments that are resistant to environments resistant to overfitting, free from centralized trust, and grounded in incentive-compatible scoring. Existing benchmarks either rely on static datasets vulnerable to training-data contamination, or measure trading PnL -- a metric conflating predictive accuracy with timing, sizing, and risk appetite. We introduce Foresight Arena, the first permissionless, on-chain benchmark for evaluating AI forecasting agents on real-world prediction markets. Agents submit probabilistic forecasts on binary Polymarket markets via a commit-reveal protocol enforced by Solidity smart contracts on Polygon PoS; outcomes are resolved trustlessly through the Gnosis Conditional Token Framework. Performance is measured by the Brier Score and a novel Alpha Score -- proper scoring rules that incentivize honest probability reporting and isolate predictive edge over market consensus. We provide a formal analysis: closed-form variance for per-market Alpha, the connection to Murphy's classical Brier decomposition, and a power analysis characterizing the number of rounds required to reliably distinguish agents of different skill levels. We show that detecting a true edge of $α^* = 0.02$ at 80% power requires approximately 350 resolved binary predictions (50 rounds of 7 markets), while $α^* = 0.01$ requires four times more. We complement these analytical results with a deterministic, seed-controlled simulation study calibrated to literature-reported Brier-score ranges, illustrating how Murphy decomposition distinguishes well-calibrated agents from market-tracking agents that fail through reduced resolution. Live results from the deployed benchmark will be reported in a future revision. All smart contracts and evaluation infrastructure are open-source.
- Abstract(参考訳): AIエージェントの真の予測能力を評価するには、過度な適合に抵抗する環境、集中的な信頼の欠如、インセンティブと互換性のあるスコアリングの基盤を必要とする。
既存のベンチマークは、トレーニングデータの汚染に脆弱な静的データセットに依存するか、あるいはPnL(タイミング、サイズ、リスク食欲と予測精度を混在させるメトリクス)を計測する。
私たちはForesight Arenaを紹介します。これは、現実世界の予測市場でAI予測エージェントを評価するための、最初の無許可のオンチェーンベンチマークです。
エージェントは、Polygon PoS上でSolidityスマートコントラクトが実施するコミット調査プロトコルを通じて、バイナリポリマーケットの確率的予測を送信します。
パフォーマンスは、Brier ScoreとAlpha Scoreによって測定される -- 市場のコンセンサスに対して、正直な確率報告と予測エッジの分離を動機付ける適切なスコアルールである。
我々は、市場ごとのAlphaの閉形式分散、マーフィーの古典的ブライア分解への接続、および異なるスキルレベルのエージェントを確実に識別するために必要なラウンドの数を示すパワー分析を提供する。
80%のパワーで$α^* = 0.02$の真のエッジを検出するには、約350の解決された2進予想(7つの市場の50ラウンド)が必要であるのに対し、$α^* = 0.01$は4倍必要である。
我々はこれらの分析結果を,文献に記載されたブライアスコア範囲に分類した決定論的・種制御シミュレーション研究で補完し,Murphyの分解が,分解能の低下によって失敗する市場追跡エージェントとよく校正されたエージェントをいかに区別するかを考察した。
デプロイされたベンチマークのライブ結果は、今後の改訂で報告される。
スマートコントラクトと評価インフラストラクチャはすべてオープンソースです。
関連論文リスト
- TRUST: A Framework for Decentralized AI Service v.0.1 [47.384270414446604]
大規模推論モデル (LRM) とマルチエージェントシステム (MAS) は, 信頼性の高い検証を必要とする。
TRUST(Transparent, Robust, and Unified Services for Trustworthy AI)は,3つのイノベーションを備えた分散フレームワークである。
我々は、悪質な俳優が損失を被っている間、正直な監査人の利益を確実に確保する安全利益理論を証明する。
論文 参考訳(メタデータ) (2026-04-29T19:32:58Z) - PolySwarm: A Multi-Agent Large Language Model Framework for Prediction Market Trading and Latency Arbitrage [0.0]
PolySwarmは50の多様なLLMペルソナをデプロイし、バイナリ成果市場を同時に評価する。
遅延仲裁モジュールは、ログ正規価格モデルからCEXで実装された確率を導出することにより、古いポリマーケット価格を利用する。
論文 参考訳(メタデータ) (2026-04-04T22:51:06Z) - Learning to Aggregate Zero-Shot LLM Agents for Corporate Disclosure Classification [0.0]
本稿では,軽量訓練アグリゲータが多種多様なゼロショット大言語モデル判断を,より強力な下流信号に組み合わせてコーポレート開示分類を行うことができるかどうかを考察する。
2018年から2024年にかけて、ナスダックとS&P500社が発行した18,420件の米企業情報開示のサンプルを、翌日の株価リターンと一致させました。
その結果、トレーニングされたアグリゲータは、すべてのシングルエージェント、多数決、信頼度の高い投票、およびFinBERTベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-21T22:29:19Z) - TraderBench: How Robust Are AI Agents in Adversarial Capital Markets? [8.661756660747042]
TraderBenchは金融のAIエージェントを評価するためのベンチマークである。
専門家が検証した静的タスク(知識検索、分析的推論)と敵の取引シミュレーションを組み合わせる。
2つの新しいトラック:4つのプログレッシブ・マーケット・マニピュレーション・トランスフォーメーションによる暗号取引、オプションデリバティブはP&Lの正確性、ギリシャ人、リスク管理である。
論文 参考訳(メタデータ) (2026-02-27T20:06:28Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Reinforcement Learning from Probabilistic Forecasts for Safe Decision-Making via Conditional Value-at-Risk Planning [41.52380204321823]
本稿では,ベイズ予測,後方サンプリング強化学習,計画とを結合した統一的枠組みである不確実性認識マルコフ決定プロセス(UAMDP)を提案する。
構造的不確実性と経済のボラティリティを特徴とする2つのドメインの高頻度株式取引と小売在庫管理において,UAMDPを評価した。
論文 参考訳(メタデータ) (2025-10-09T13:46:32Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Probable Domain Generalization via Quantile Risk Minimization [90.15831047587302]
ドメインの一般化は、目に見えないテスト分布でうまく機能する予測子を求める。
我々はDGのための新しい確率的フレームワークを提案し、高い確率でよく動作する予測器を学習することを目指している。
論文 参考訳(メタデータ) (2022-07-20T14:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。