論文の概要: LiveTradeBench: Seeking Real-World Alpha with Large Language Models
- arxiv url: http://arxiv.org/abs/2511.03628v1
- Date: Wed, 05 Nov 2025 16:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.49191
- Title: LiveTradeBench: Seeking Real-World Alpha with Large Language Models
- Title(参考訳): LiveTradeBench: 大規模言語モデルによる実世界のアルファを探る
- Authors: Haofei Yu, Fenghai Li, Jiaxuan You,
- Abstract要約: 大規模言語モデル(LLM)は、ベンチマーク全体で強力なパフォーマンスを達成する。
これらのテストは静的な設定で行われ、実際のダイナミクスと不確実性が欠如している。
LLMエージェントを現実的で発展途上国で評価するためのライブトレーディング環境であるLiveTradeBenchを紹介する。
- 参考スコア(独自算出の注目度): 26.976122048323873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong performance across benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but these tests occur in static settings, lacking real dynamics and uncertainty. Consequently, they evaluate isolated reasoning or problem-solving rather than decision-making under uncertainty. To address this, we introduce LiveTradeBench, a live trading environment for evaluating LLM agents in realistic and evolving markets. LiveTradeBench follows three design principles: (i) Live data streaming of market prices and news, eliminating dependence on offline backtesting and preventing information leakage while capturing real-time uncertainty; (ii) a portfolio-management abstraction that extends control from single-asset actions to multi-asset allocation, integrating risk management and cross-asset reasoning; and (iii) multi-market evaluation across structurally distinct environments--U.S. stocks and Polymarket prediction markets--differing in volatility, liquidity, and information flow. At each step, an agent observes prices, news, and its portfolio, then outputs percentage allocations that balance risk and return. Using LiveTradeBench, we run 50-day live evaluations of 21 LLMs across families. Results show that (1) high LMArena scores do not imply superior trading outcomes; (2) models display distinct portfolio styles reflecting risk appetite and reasoning dynamics; and (3) some LLMs effectively leverage live signals to adapt decisions. These findings expose a gap between static evaluation and real-world competence, motivating benchmarks that test sequential decision making and consistency under live uncertainty.
- Abstract(参考訳): 大きな言語モデル(LLM)は、知識クイズや数学推論からWebエージェントタスクまで、ベンチマーク全体で強力なパフォーマンスを達成するが、これらのテストは静的な設定で行われ、実際のダイナミクスと不確実性が欠如している。
その結果、不確実性の下での意思決定よりも、独立した推論や問題解決を評価した。
そこで本研究では, LLMエージェントの評価を行うライブトレーディング環境であるLiveTradeBenchを紹介する。
LiveTradeBenchは以下の3つの設計原則に従っている。
一 市場価格及びニュースのライブデータストリーミング、オフラインバックテストへの依存の排除及びリアルタイム不確実性を捉えつつ情報漏洩を防止すること。
(二)リスク管理とクロスアセスメント推論の統合により、単一アセスメント行動からマルチアセスメントアロケーションへの制御を拡張したポートフォリオ管理抽象化。
三 構造的に異なる環境における多市場評価(米国株及びポリマーケット予測)-ボラティリティ、流動性及び情報フローの差。
各ステップにおいて、エージェントは価格、ニュース、およびそのポートフォリオを観察し、リスクとリターンのバランスをとる割当を出力する。
LiveTradeBenchを用いて、家族間での21 LLMの50日間のライブ評価を行う。
その結果,(1)高いLMArenaスコアは取引結果に優れていないこと,(2)リスク食欲や推論のダイナミクスを反映したポートフォリオスタイルを示すモデル,(3)ライブシグナルを効果的に活用して意思決定を行うモデルなどが示された。
これらの結果は、静的評価と実世界のコンピテンシーのギャップを露呈し、シーケンシャルな意思決定と実際の不確実性の下での一貫性をテストするためのベンチマークを動機付けている。
関連論文リスト
- Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。
展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。
従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。
楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文 参考訳(メタデータ) (2025-10-22T18:22:25Z) - When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.55061622246824]
Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。
AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。
GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる薬剤を評価する。
論文 参考訳(メタデータ) (2025-10-13T17:54:09Z) - StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? [44.10622904101254]
大規模言語モデル(LLM)は、最近、自律エージェントとして強力な能力を示した。
実時間複数ヶ月の株式トレーディング環境でLLMエージェントを評価するためのベンチマークであるStockBenchを紹介する。
我々の評価では、ほとんどのLLMエージェントは、単純な買い買い得ベースラインよりも優れているが、いくつかのモデルでは、より高いリターンをもたらし、より効果的にリスクを管理する可能性を実証している。
論文 参考訳(メタデータ) (2025-10-02T16:54:57Z) - Cross-Asset Risk Management: Integrating LLMs for Real-Time Monitoring of Equity, Fixed Income, and Currency Markets [30.815524322885754]
大規模言語モデル(LLM)は金融分野において強力なツールとして登場した。
LLMを利用したクロス・アセット・リスク・マネジメント・フレームワークを導入し、株式・固定所得・通貨市場のリアルタイムモニタリングを容易にする。
論文 参考訳(メタデータ) (2025-04-05T22:28:35Z) - Agent Trading Arena: A Study on Numerical Understanding in LLM-Based Agents [69.58565132975504]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示した。
LLMをベースとしたエージェントが競合するマルチエージェント取引を行う仮想ゼロサム株式市場であるエージェントトレーディングアリーナを提示する。
論文 参考訳(メタデータ) (2025-02-25T08:41:01Z) - When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments [55.19252983108372]
LLMによって駆動される、StockAgentと呼ばれるマルチエージェントAIシステムを開発した。
StockAgentを使えば、ユーザーはさまざまな外部要因が投資家取引に与える影響を評価することができる。
AIエージェントに基づく既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。
論文 参考訳(メタデータ) (2024-07-15T06:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。