論文の概要: PredictionMarketBench: A SWE-bench-Style Framework for Backtesting Trading Agents on Prediction Markets
- arxiv url: http://arxiv.org/abs/2602.00133v1
- Date: Wed, 28 Jan 2026 06:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.968736
- Title: PredictionMarketBench: A SWE-bench-Style Framework for Backtesting Trading Agents on Prediction Markets
- Title(参考訳): PredictionMarketBench: 予測市場におけるトレーディングエージェントのバックテストのためのSWEベンチスタイルフレームワーク
- Authors: Avi Arora, Ritesh Malpani,
- Abstract要約: PredictionMarketBenchは、予測市場におけるアルゴリズムおよびLLMベースのトレーディングエージェントの評価のためのSWEベンチスタイルのベンチマークである。
PredictionMarketBenchは、(i)生の交換ストリーム(注文帳、取引、ライフサイクル、決済)からのエピソード構築を標準化し、(ii)メーカー/テッカーセマンティクスと料金モデリングを備えた実行現実的なシミュレータ、(iii)ツールベースのエージェントインターフェースを標準化する。
暗号通貨、天気、スポーツにまたがるカルシをベースとした4つのエピソードを公表する。ベースラインの結果は、取引コストや決済損失により、ナイーブなトレーディングエージェントが過小評価され、一方、手数料を意識したアルゴリズム戦略は、不安定なエピソードにおいて競争力を維持していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prediction markets offer a natural testbed for trading agents: contracts have binary payoffs, prices can be interpreted as probabilities, and realized performance depends critically on market microstructure, fees, and settlement risk. We introduce PredictionMarketBench, a SWE-bench-style benchmark for evaluating algorithmic and LLM-based trading agents on prediction markets via deterministic, event-driven replay of historical limit-order-book and trade data. PredictionMarketBench standardizes (i) episode construction from raw exchange streams (orderbooks, trades, lifecycle, settlement), (ii) an execution-realistic simulator with maker/taker semantics and fee modeling, and (iii) a tool-based agent interface that supports both classical strategies and tool-calling LLM agents with reproducible trajectories. We release four Kalshi-based episodes spanning cryptocurrency, weather, and sports. Baseline results show that naive trading agents can underperform due to transaction costs and settlement losses, while fee-aware algorithmic strategies remain competitive in volatile episodes.
- Abstract(参考訳): 予測市場は、トレーディングエージェントに自然なテストベッドを提供する:契約にはバイナリペイオフがあり、価格は確率として解釈でき、パフォーマンスは市場のミクロ構造、手数料、決済リスクに大きく依存する。
我々は,予測市場におけるアルゴリズムおよびLLMに基づくトレーディングエージェントの評価を行う,SWEベンチマークであるPredictMarketBenchを紹介する。
PredictionMarketBenchが標準化
一 生の取引所(注文帳、取引所、ライフサイクル、決済所)からのエピソード構築
(二)メーカー/テカーのセマンティクスと料金モデリングを備えた実行現実シミュレータ、及び
三 古典的戦略と再現可能な軌跡を持つLLMエージェントの両方をサポートするツールベースのエージェントインタフェース。
暗号通貨、天気、スポーツにまたがる4つのカルシベースのエピソードをリリースする。
ベースラインの結果は、取引コストと決済損失により、素直なトレーディングエージェントはパフォーマンスが劣り、一方、料金を意識したアルゴリズム戦略は、不安定なエピソードにおいて競争力を維持していることを示している。
関連論文リスト
- When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.55061622246824]
Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。
AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。
GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる薬剤を評価する。
論文 参考訳(メタデータ) (2025-10-13T17:54:09Z) - To Trade or Not to Trade: An Agentic Approach to Estimating Market Risk Improves Trading Decisions [0.0]
大規模言語モデル(LLM)はますますエージェントフレームワークにデプロイされている。
我々は LLM を用いて金融時系列の微分方程式を反復的に発見するエージェントシステムを開発した。
モデルインフォームドトレーディング戦略は標準LLMエージェントよりも優れていた。
論文 参考訳(メタデータ) (2025-07-11T13:29:32Z) - Agent Trading Arena: A Study on Numerical Understanding in LLM-Based Agents [69.58565132975504]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示した。
LLMをベースとしたエージェントが競合するマルチエージェント取引を行う仮想ゼロサム株式市場であるエージェントトレーディングアリーナを提示する。
論文 参考訳(メタデータ) (2025-02-25T08:41:01Z) - When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments [55.19252983108372]
LLMによって駆動される、StockAgentと呼ばれるマルチエージェントAIシステムを開発した。
StockAgentを使えば、ユーザーはさまざまな外部要因が投資家取引に与える影響を評価することができる。
AIエージェントに基づく既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。
論文 参考訳(メタデータ) (2024-07-15T06:49:30Z) - Data Cross-Segmentation for Improved Generalization in Reinforcement
Learning Based Algorithmic Trading [5.75899596101548]
本稿では,学習した予測モデルからの信号に基づいて処理を行う強化学習(RL)アルゴリズムを提案する。
われわれのアルゴリズムは、ブルサ・マレーシアの20年以上のエクイティデータに基づいてテストしている。
論文 参考訳(メタデータ) (2023-07-18T16:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。