Fugu-MT 論文翻訳(概要): PolyBench: Benchmarking LLM Forecasting and Trading Capabilities on Live Prediction Market Data

論文の概要: PolyBench: Benchmarking LLM Forecasting and Trading Capabilities on Live Prediction Market Data

arxiv url: http://arxiv.org/abs/2604.14199v1
Date: Fri, 03 Apr 2026 06:25:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-19 19:09:11.713261
Title: PolyBench: Benchmarking LLM Forecasting and Trading Capabilities on Live Prediction Market Data
Title（参考訳）: PolyBench: ライブ予測市場データによるLLM予測とトレーディング機能のベンチマーク
Authors: Pu Cheng, Juncheng Liu, Yunshen Long,
Abstract要約: textbfPolyBenchは、生の市場信号から現実世界のイベントを予測するためのベンチマークである。ポリベンチを用いて、7つの最先端の大規模言語モデルを評価する。本フレームワークは, 方向性の精度, 信頼性-重み付きリターン(CWR), 年次パーセンテージ収率(APY), シャープ比を評価する。
参考スコア（独自算出の注目度）: 3.7753883100108525
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Predicting real-world events from live market signals demands systems that fuse qualitative news with quantitative order-book dynamics under strict temporal discipline -- a challenge existing benchmarks fail to capture. We present \textbf{PolyBench}, a multimodal benchmark derived from Polymarket that records point-in-time cross-sections of 38,666 binary prediction markets spanning 4,997 events, synchronously coupling each snapshot with a Central Limit Order Book (CLOB) state and a real-time news stream. Using PolyBench, we evaluate seven state-of-the-art Large Language Models -- spanning open- and closed-source families -- generating 36,165 predictions under identical, timestamp-locked market states collected between February 6 and 12, 2026. Our multidimensional framework assesses directional accuracy, our proposed Confidence-Weighted Return (CWR), Annualized Percentage Yield (APY), and Sharpe ratio via realistic order-book execution simulation. The results reveal a pronounced performance divergence: only two of seven models achieve positive financial returns -- MiMo-V2-Flash at \textbf{17.6%} CWR and Gemini-3-Flash at 6.2% CWR -- while the remaining five incur losses despite uniformly high stated confidence. These findings highlight the gap between surface-level language fluency and genuine probabilistic reasoning under live market uncertainty, and establish PolyBench as a contamination-proof, financially-grounded evaluation standard for future LLM research. Our dataset and code available at \underline{\href{https://github.com/PolyBench/PolyBench}{https://github.com/PolyBench/PolyBench}}.
Abstract（参考訳）: 現実世界のイベントを生の市場信号から予測するには、厳格な時間的規律の下で定性的なニュースと定量的な注文書のダイナミクスを融合させるシステムを必要とする。我々はPolymarketから派生したマルチモーダルベンチマークである‘textbf{PolyBench} を提示する。これは4,997イベントにまたがる38,666の2進予測市場のポイント・イン・タイムの断面を記録し、各スナップショットを中央制限順序帳(CLOB)状態とリアルタイムニュースストリームと同期的に結合する。 PolyBenchを用いて、2026年2月6日から12日にかけて収集された、タイムスタンプでロックされた同じ市場状態の下で、6,165の予測を生成する7つの最先端のLarge Language Model(オープンソースおよびクローズドソースファミリ)を評価した。我々の多次元フレームワークは, 方向性の精度, 信頼性-重み付きリターン (CWR), 年次パーセンテージ収率 (APY) , シャープ比を現実的なオーダーブック実行シミュレーションにより評価する。 MiMo-V2-Flash at \textbf{17.6%} CWRとGemini-3-Flash at 6.2% CWRだ。これらの知見は, 市場不確実性下における表面水準言語流布と真の確率論的推論とのギャップを浮き彫りにし, 将来的なLCM研究のための汚染防止・財政的評価基準としてポリベンチを確立した。私たちのデータセットとコードは、 \underline{\href{https://github.com/PolyBench/PolyBench}{https://github.com/PolyBench/PolyBench}}で利用可能です。

関連論文リスト

PolySwarm: A Multi-Agent Large Language Model Framework for Prediction Market Trading and Latency Arbitrage [0.0]
PolySwarmは50の多様なLLMペルソナをデプロイし、バイナリ成果市場を同時に評価する。遅延仲裁モジュールは、ログ正規価格モデルからCEXで実装された確率を導出することにより、古いポリマーケット価格を利用する。
論文参考訳（メタデータ） (2026-04-04T22:51:06Z)
QuitoBench: A High-Quality Open Time Series Forecasting Benchmark [32.21290355342465]
時系列予測は、ファイナンス、ヘルスケア、クラウドコンピューティングにおいて重要である。時系列予測のための状態バランスのベンチマークであるtextscQuitoBenchを紹介する。
論文参考訳（メタデータ） (2026-03-27T02:24:34Z)
Forecasting Future Language: Context Design for Mention Markets [81.25011140991566]
我々は、参照市場における正確な予測を支援するために、入力コンテキストをどのように設計するかを検討する。 1 より豊かなコンテキストは予測性能を継続的に改善し、(2)市場条件付きプロンプト(MCP)は事前の市場確率を扱い、テキストによる証拠を用いてそれを更新し、より良いキャリブレーションの予測を得る、(3)市場確率とMCP(MixMCP)の混合が市場ベースラインを上回っている、という3つの洞察を得た。
論文参考訳（メタデータ） (2026-02-04T12:43:31Z)
LiveTradeBench: Seeking Real-World Alpha with Large Language Models [26.976122048323873]
大規模言語モデル(LLM)は、ベンチマーク全体で強力なパフォーマンスを達成する。これらのテストは静的な設定で行われ、実際のダイナミクスと不確実性が欠如している。 LLMエージェントを現実的で発展途上国で評価するためのライブトレーディング環境であるLiveTradeBenchを紹介する。
論文参考訳（メタデータ） (2025-11-05T16:47:26Z)
Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。 We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文参考訳（メタデータ） (2025-11-04T17:22:22Z)
Increase Alpha: Performance and Risk of an AI-Driven Trading Framework [0.0]
金融市場は非効率で、価格、ボリューム、断続的な関係が明らかにされていない。 increase Alphaでは、800以上の米国株を毎日の方向信号にマッピングするディープラーニングフレームワークを構築しました。私たちは、透過的で業界標準のメトリクスを通してリアルタイムのパフォーマンスを評価します。
論文参考訳（メタデータ） (2025-09-20T14:37:02Z)
FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。 FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文参考訳（メタデータ） (2025-02-26T05:19:16Z)
Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。 12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文参考訳（メタデータ） (2024-11-05T01:11:28Z)
Diffusion Variational Autoencoder for Tackling Stochasticity in Multi-Step Regression Stock Price Prediction [54.21695754082441]
長期的地平線上での多段階の株価予測は、ボラティリティの予測に不可欠である。多段階の株価予測に対する現在の解決策は、主に単一段階の分類に基づく予測のために設計されている。深層階層型変分オートコーダ(VAE)と拡散確率的手法を組み合わせてセック2seqの株価予測を行う。本モデルでは, 予測精度と分散性の観点から, 最先端の解よりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T16:21:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。