論文の概要: TraderBench: How Robust Are AI Agents in Adversarial Capital Markets?
- arxiv url: http://arxiv.org/abs/2603.00285v1
- Date: Fri, 27 Feb 2026 20:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.13229
- Title: TraderBench: How Robust Are AI Agents in Adversarial Capital Markets?
- Title(参考訳): TraderBench: 敵資本市場におけるAIエージェントのロバスト性
- Authors: Xiaochuang Yuan, Hui Xu, Silvia Xu, Cui Zou, Jing Xiong,
- Abstract要約: TraderBenchは金融のAIエージェントを評価するためのベンチマークである。
専門家が検証した静的タスク(知識検索、分析的推論)と敵の取引シミュレーションを組み合わせる。
2つの新しいトラック:4つのプログレッシブ・マーケット・マニピュレーション・トランスフォーメーションによる暗号取引、オプションデリバティブはP&Lの正確性、ギリシャ人、リスク管理である。
- 参考スコア(独自算出の注目度): 8.661756660747042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating AI agents in finance faces two key challenges: static benchmarks require costly expert annotation yet miss the dynamic decision-making central to real-world trading, while LLM-based judges introduce uncontrolled variance on domain-specific tasks. We introduce TraderBench, a benchmark that addresses both issues. It combines expert-verified static tasks (knowledge retrieval, analytical reasoning) with adversarial trading simulations scored purely on realized performance-Sharpe ratio, returns, and drawdown-eliminating judge variance entirely. The framework features two novel tracks: crypto trading with four progressive market-manipulation transforms, and options derivatives scoring across P&L accuracy, Greeks, and risk management. Trading scenarios can be refreshed with new market data to prevent benchmark contamination. Evaluating 13 models (8B open-source to frontier) on ~50 tasks, we find: (1) 8 of 13 models score ~33 on crypto with <1-point variation across adversarial conditions, exposing fixed non-adaptive strategies; (2) extended thinking helps retrieval (+26 points) but has zero impact on trading (+0.3 crypto, -0.1 options). These findings reveal that current agents lack genuine market adaptation, underscoring the need for performance-grounded evaluation in finance.
- Abstract(参考訳): 静的ベンチマークは、高価な専門家のアノテーションを必要とするが、現実の取引の中心となる動的決定を見逃す。
両方の問題に対処するベンチマークであるTracerBenchを紹介します。
これは、専門家が検証した静的タスク(知識検索、解析的推論)と、実現されたパフォーマンス-シャープ比、リターン、およびドローダウン-決定された判断分散に基づいて純粋に得られた敵対的トレーディングシミュレーションを組み合わせる。
このフレームワークには、2つの新しいトラックがある。4つのプログレッシブな市場操作変換による暗号取引と、P&Lの精度、ギリシャ人、リスク管理の選択肢デリバティブである。
トレーディングシナリオは、ベンチマークの汚染を防ぐために、新しい市場データで更新することができる。
約50のタスクで13のモデル(オープンソースからフロンティアまで8B)を評価すると、(1)13のモデルのうち8つは、敵対的条件にまたがる1ポイントの変動で33点のスコアを獲得し、固定された非適応戦略を露呈する;(2)拡張思考は検索に役立ち(+26ポイント)、取引に影響を与えない(+0.3暗号、-0.1オプション)。
これらの結果から,現在のエージェントは市場適応を欠いていることが明らかとなり,財務における業績評価の必要性が浮き彫りになった。
関連論文リスト
- PredictionMarketBench: A SWE-bench-Style Framework for Backtesting Trading Agents on Prediction Markets [0.0]
PredictionMarketBenchは、予測市場におけるアルゴリズムおよびLLMベースのトレーディングエージェントの評価のためのSWEベンチスタイルのベンチマークである。
PredictionMarketBenchは、(i)生の交換ストリーム(注文帳、取引、ライフサイクル、決済)からのエピソード構築を標準化し、(ii)メーカー/テッカーセマンティクスと料金モデリングを備えた実行現実的なシミュレータ、(iii)ツールベースのエージェントインターフェースを標準化する。
暗号通貨、天気、スポーツにまたがるカルシをベースとした4つのエピソードを公表する。ベースラインの結果は、取引コストや決済損失により、ナイーブなトレーディングエージェントが過小評価され、一方、手数料を意識したアルゴリズム戦略は、不安定なエピソードにおいて競争力を維持していることを示している。
論文 参考訳(メタデータ) (2026-01-28T06:41:12Z) - TradeTrap: Are LLM-based Trading Agents Truly Reliable and Faithful? [44.01987401527335]
TradeTrapは、適応的および手続き的自律的トレーディングエージェントの両方を体系的にストレステストするための統一的な評価フレームワークである。
市場インテリジェンス、戦略定式化、ポートフォリオと台帳処理、取引実行の4つの中心的コンポーネントをターゲットにしている。
実験により、単一コンポーネントでの小さな摂動がエージェント決定ループを伝播し、極端な濃度、暴走露光、大きなポートフォリオの減少を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-12-01T23:06:42Z) - LiveTradeBench: Seeking Real-World Alpha with Large Language Models [26.976122048323873]
大規模言語モデル(LLM)は、ベンチマーク全体で強力なパフォーマンスを達成する。
これらのテストは静的な設定で行われ、実際のダイナミクスと不確実性が欠如している。
LLMエージェントを現実的で発展途上国で評価するためのライブトレーディング環境であるLiveTradeBenchを紹介する。
論文 参考訳(メタデータ) (2025-11-05T16:47:26Z) - Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。
展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。
従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。
楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文 参考訳(メタデータ) (2025-10-22T18:22:25Z) - When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.55061622246824]
Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。
AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。
GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる薬剤を評価する。
論文 参考訳(メタデータ) (2025-10-13T17:54:09Z) - Trade in Minutes! Rationality-Driven Agentic System for Quantitative Financial Trading [57.28635022507172]
TiMiは、アーキテクチャ上、戦略開発を分単位のデプロイメントから切り離す合理性駆動型マルチエージェントシステムである。
本稿では,マクロパターンからマイクロカスタマイズ,トレーディングボット実装のための階層型プログラミング設計,数学的リフレクションによって駆動されるクローズドループ最適化までの2層解析パラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-06T13:08:55Z) - Trading-R1: Financial Trading with LLM Reasoning via Reinforcement Learning [19.52468210547666]
トレーディング-R1は、戦略的思考と包括的テーマ構成の計画、事実に基づく分析、ボラティリティ調整による意思決定を組み込んだ金融モデルである。
このシステムは、規律と解釈可能な取引決定をサポートする構造化されたエビデンスベースの投資成果を生成する。
論文 参考訳(メタデータ) (2025-09-14T20:13:41Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Agent Trading Arena: A Study on Numerical Understanding in LLM-Based Agents [69.58565132975504]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示した。
LLMをベースとしたエージェントが競合するマルチエージェント取引を行う仮想ゼロサム株式市場であるエージェントトレーディングアリーナを提示する。
論文 参考訳(メタデータ) (2025-02-25T08:41:01Z) - When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments [55.19252983108372]
LLMによって駆動される、StockAgentと呼ばれるマルチエージェントAIシステムを開発した。
StockAgentを使えば、ユーザーはさまざまな外部要因が投資家取引に与える影響を評価することができる。
AIエージェントに基づく既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。
論文 参考訳(メタデータ) (2024-07-15T06:49:30Z) - MacroHFT: Memory Augmented Context-aware Reinforcement Learning On High Frequency Trading [20.3106468936159]
強化学習(RL)は、高周波取引(HFT)のもう一つの魅力あるアプローチとなっている。
我々は,新しいメモリ拡張コンテキスト認識強化学習手法であるOn HFT, empha.k. MacroHFTを提案する。
マイクロレベルのトレーディングタスクにおいて,MacroHFTは最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。