論文の概要: PredictionMarketBench: A SWE-bench-Style Framework for Backtesting Trading Agents on Prediction Markets
- arxiv url: http://arxiv.org/abs/2602.00133v1
- Date: Wed, 28 Jan 2026 06:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.968736
- Title: PredictionMarketBench: A SWE-bench-Style Framework for Backtesting Trading Agents on Prediction Markets
- Title(参考訳): PredictionMarketBench: 予測市場におけるトレーディングエージェントのバックテストのためのSWEベンチスタイルフレームワーク
- Authors: Avi Arora, Ritesh Malpani,
- Abstract要約: PredictionMarketBenchは、予測市場におけるアルゴリズムおよびLLMベースのトレーディングエージェントの評価のためのSWEベンチスタイルのベンチマークである。
PredictionMarketBenchは、(i)生の交換ストリーム(注文帳、取引、ライフサイクル、決済)からのエピソード構築を標準化し、(ii)メーカー/テッカーセマンティクスと料金モデリングを備えた実行現実的なシミュレータ、(iii)ツールベースのエージェントインターフェースを標準化する。
暗号通貨、天気、スポーツにまたがるカルシをベースとした4つのエピソードを公表する。ベースラインの結果は、取引コストや決済損失により、ナイーブなトレーディングエージェントが過小評価され、一方、手数料を意識したアルゴリズム戦略は、不安定なエピソードにおいて競争力を維持していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prediction markets offer a natural testbed for trading agents: contracts have binary payoffs, prices can be interpreted as probabilities, and realized performance depends critically on market microstructure, fees, and settlement risk. We introduce PredictionMarketBench, a SWE-bench-style benchmark for evaluating algorithmic and LLM-based trading agents on prediction markets via deterministic, event-driven replay of historical limit-order-book and trade data. PredictionMarketBench standardizes (i) episode construction from raw exchange streams (orderbooks, trades, lifecycle, settlement), (ii) an execution-realistic simulator with maker/taker semantics and fee modeling, and (iii) a tool-based agent interface that supports both classical strategies and tool-calling LLM agents with reproducible trajectories. We release four Kalshi-based episodes spanning cryptocurrency, weather, and sports. Baseline results show that naive trading agents can underperform due to transaction costs and settlement losses, while fee-aware algorithmic strategies remain competitive in volatile episodes.
- Abstract(参考訳): 予測市場は、トレーディングエージェントに自然なテストベッドを提供する:契約にはバイナリペイオフがあり、価格は確率として解釈でき、パフォーマンスは市場のミクロ構造、手数料、決済リスクに大きく依存する。
我々は,予測市場におけるアルゴリズムおよびLLMに基づくトレーディングエージェントの評価を行う,SWEベンチマークであるPredictMarketBenchを紹介する。
PredictionMarketBenchが標準化
一 生の取引所(注文帳、取引所、ライフサイクル、決済所)からのエピソード構築
(二)メーカー/テカーのセマンティクスと料金モデリングを備えた実行現実シミュレータ、及び
三 古典的戦略と再現可能な軌跡を持つLLMエージェントの両方をサポートするツールベースのエージェントインタフェース。
暗号通貨、天気、スポーツにまたがる4つのカルシベースのエピソードをリリースする。
ベースラインの結果は、取引コストと決済損失により、素直なトレーディングエージェントはパフォーマンスが劣り、一方、料金を意識したアルゴリズム戦略は、不安定なエピソードにおいて競争力を維持していることを示している。
関連論文リスト
- TraderBench: How Robust Are AI Agents in Adversarial Capital Markets? [8.661756660747042]
TraderBenchは金融のAIエージェントを評価するためのベンチマークである。
専門家が検証した静的タスク(知識検索、分析的推論)と敵の取引シミュレーションを組み合わせる。
2つの新しいトラック:4つのプログレッシブ・マーケット・マニピュレーション・トランスフォーメーションによる暗号取引、オプションデリバティブはP&Lの正確性、ギリシャ人、リスク管理である。
論文 参考訳(メタデータ) (2026-02-27T20:06:28Z) - Forecasting Future Language: Context Design for Mention Markets [81.25011140991566]
我々は、参照市場における正確な予測を支援するために、入力コンテキストをどのように設計するかを検討する。
1 より豊かなコンテキストは予測性能を継続的に改善し、(2)市場条件付きプロンプト(MCP)は事前の市場確率を扱い、テキストによる証拠を用いてそれを更新し、より良いキャリブレーションの予測を得る、(3)市場確率とMCP(MixMCP)の混合が市場ベースラインを上回っている、という3つの洞察を得た。
論文 参考訳(メタデータ) (2026-02-04T12:43:31Z) - Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。
展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。
従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。
楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文 参考訳(メタデータ) (2025-10-22T18:22:25Z) - When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.55061622246824]
Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。
AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。
GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる薬剤を評価する。
論文 参考訳(メタデータ) (2025-10-13T17:54:09Z) - To Trade or Not to Trade: An Agentic Approach to Estimating Market Risk Improves Trading Decisions [0.0]
大規模言語モデル(LLM)はますますエージェントフレームワークにデプロイされている。
我々は LLM を用いて金融時系列の微分方程式を反復的に発見するエージェントシステムを開発した。
モデルインフォームドトレーディング戦略は標準LLMエージェントよりも優れていた。
論文 参考訳(メタデータ) (2025-07-11T13:29:32Z) - Agent Trading Arena: A Study on Numerical Understanding in LLM-Based Agents [69.58565132975504]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示した。
LLMをベースとしたエージェントが競合するマルチエージェント取引を行う仮想ゼロサム株式市場であるエージェントトレーディングアリーナを提示する。
論文 参考訳(メタデータ) (2025-02-25T08:41:01Z) - When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments [55.19252983108372]
LLMによって駆動される、StockAgentと呼ばれるマルチエージェントAIシステムを開発した。
StockAgentを使えば、ユーザーはさまざまな外部要因が投資家取引に与える影響を評価することができる。
AIエージェントに基づく既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。
論文 参考訳(メタデータ) (2024-07-15T06:49:30Z) - Diffusion Variational Autoencoder for Tackling Stochasticity in
Multi-Step Regression Stock Price Prediction [54.21695754082441]
長期的地平線上での多段階の株価予測は、ボラティリティの予測に不可欠である。
多段階の株価予測に対する現在の解決策は、主に単一段階の分類に基づく予測のために設計されている。
深層階層型変分オートコーダ(VAE)と拡散確率的手法を組み合わせてセック2seqの株価予測を行う。
本モデルでは, 予測精度と分散性の観点から, 最先端の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T16:21:15Z) - Data Cross-Segmentation for Improved Generalization in Reinforcement
Learning Based Algorithmic Trading [5.75899596101548]
本稿では,学習した予測モデルからの信号に基づいて処理を行う強化学習(RL)アルゴリズムを提案する。
われわれのアルゴリズムは、ブルサ・マレーシアの20年以上のエクイティデータに基づいてテストしている。
論文 参考訳(メタデータ) (2023-07-18T16:00:02Z) - Predicting Status of Pre and Post M&A Deals Using Machine Learning and
Deep Learning Techniques [0.0]
リスク仲裁または合併仲裁は、M&A取引の成功を推測する投資戦略である。
事前の取引状況の予測は、リスク仲裁者にとって非常に重要である。
本稿では,買収成功予測問題に対するMLとDLに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-08-05T21:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。