論文の概要: Time Travel is Cheating: Going Live with DeepFund for Real-Time Fund Investment Benchmarking
- arxiv url: http://arxiv.org/abs/2505.11065v1
- Date: Fri, 16 May 2025 10:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.575549
- Title: Time Travel is Cheating: Going Live with DeepFund for Real-Time Fund Investment Benchmarking
- Title(参考訳): タイムトラベル、リアルタイム投資ベンチマークでDeepFundと提携
- Authors: Changlun Li, Yao Shi, Chen Wang, Qiqi Duan, Runke Ruan, Weijie Huang, Haonan Long, Lijun Huang, Yuyu Luo, Nan Tang,
- Abstract要約: LLM(Large Language Models)は、財務タスクにまたがる顕著な機能を示す。
複雑なファンド投資を管理するための現実的な効果は、まだ不十分に評価されている。
我々は,LLMをリアルタイム市場環境で厳格に評価するために設計された,ライブファンドベンチマークツールであるDeepFundを紹介する。
- 参考スコア(独自算出の注目度): 12.837781884216227
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated notable capabilities across financial tasks, including financial report summarization, earnings call transcript analysis, and asset classification. However, their real-world effectiveness in managing complex fund investment remains inadequately assessed. A fundamental limitation of existing benchmarks for evaluating LLM-driven trading strategies is their reliance on historical back-testing, inadvertently enabling LLMs to "time travel"-leveraging future information embedded in their training corpora, thus resulting in possible information leakage and overly optimistic performance estimates. To address this issue, we introduce DeepFund, a live fund benchmark tool designed to rigorously evaluate LLM in real-time market conditions. Utilizing a multi-agent architecture, DeepFund connects directly with real-time stock market data-specifically data published after each model pretraining cutoff-to ensure fair and leakage-free evaluations. Empirical tests on nine flagship LLMs from leading global institutions across multiple investment dimensions-including ticker-level analysis, investment decision-making, portfolio management, and risk control-reveal significant practical challenges. Notably, even cutting-edge models such as DeepSeek-V3 and Claude-3.7-Sonnet incur net trading losses within DeepFund real-time evaluation environment, underscoring the present limitations of LLMs for active fund management. Our code is available at https://github.com/HKUSTDial/DeepFund.
- Abstract(参考訳): LLM(Large Language Models)は、財務報告の要約、決算報告の書き起こし分析、資産分類など、金融業務にまたがる顕著な能力を示した。
しかし、複雑なファンド投資を管理するための現実的な効果は、いまだに不十分に評価されている。
LLM主導のトレーディング戦略を評価するための既存のベンチマークの基本的な制限は、LLMがトレーニングコーパスに埋め込まれた将来の情報を「タイムトラベル」することで、情報漏洩や過度に楽観的なパフォーマンス推定が可能であることである。
この問題に対処するために,リアルタイム市場環境におけるLCMの厳格な評価を目的とした,ライブファンドベンチマークツールであるDeepFundを紹介した。
マルチエージェントアーキテクチャを利用することで、DeepFundは、各モデルがカットオフをトレーニングした後、リアルタイムの株式市場データ固有のデータと直接接続することで、公正かつ漏洩のない評価を保証する。
先進的な国際機関による9つの旗艦LDMに関する実証試験は、チッカーレベルの分析、投資決定、ポートフォリオ管理、リスク管理に関する重要な実践的課題を含む、多岐にわたる。
特に、DeepSeek-V3 や Claude-3.7-Sonnet のような最先端モデルでさえ、DeepFund のリアルタイム評価環境でのネットトレーディング損失を発生させ、アクティブファンド管理における LLM の現在の限界を裏付けている。
私たちのコードはhttps://github.com/HKUSTDial/DeepFund.comから入手可能です。
関連論文リスト
- Can LLM-based Financial Investing Strategies Outperform the Market in Long Run? [5.968528974532717]
大規模言語モデル(LLM)は、資産価格のタスクや株式取引アプリケーションに利用されており、AIエージェントが非構造化の財務データから投資決定を生成することができる。
我々は、より長い期間にわたるタイミングベースの戦略とより大きなシンボルの宇宙を評価するバックテストフレームワークであるFINSABERを提案し、それらの一般化性と堅牢性を批判的に評価する。
論文 参考訳(メタデータ) (2025-05-11T18:02:21Z) - DeepFund: Will LLM be Professional at Fund Investment? A Live Arena Perspective [10.932591941137698]
本稿では,シミュレーション環境における大規模言語モデル(LLM)を評価するための総合的なプラットフォームであるDeepFundを紹介する。
提案手法は,LLMがアナリストとマネージャの両方として機能するマルチエージェントフレームワークを実装し,投資決定の現実的なシミュレーションを作成する。
異なる市場条件と投資パラメータをまたいだモデル性能を可視化し、詳細な比較分析を可能にするWebインターフェースを提供する。
論文 参考訳(メタデータ) (2025-03-24T03:32:13Z) - FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - LLM-Powered Multi-Agent System for Automated Crypto Portfolio Management [9.9661459222949]
本稿では、暗号通貨投資のための説明可能なマルチモーダルマルチエージェントフレームワークを提案する。
当社のフレームワークでは、データ分析や文献の統合、投資決定といったサブタスクを処理するために、チーム内およびチーム間で協力する特殊なエージェントを使用しています。
論文 参考訳(メタデータ) (2025-01-01T13:08:17Z) - AI in Investment Analysis: LLMs for Equity Stock Ratings [0.2916558661202724]
本稿では,Large Language Models (LLMs) のマルチ水平ストックレーティングへの適用について検討する。
本研究は、LLMを活用して株価評価の精度と一貫性を向上させることで、これらの課題に対処する。
提案手法は,フォワードリターンで評価した場合,従来の株価評価手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-30T15:06:57Z) - When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments [55.19252983108372]
LLMによって駆動される、StockAgentと呼ばれるマルチエージェントAIシステムを開発した。
StockAgentを使えば、ユーザーはさまざまな外部要因が投資家取引に与える影響を評価することができる。
AIエージェントに基づく既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。
論文 参考訳(メタデータ) (2024-07-15T06:49:30Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。