論文の概要: PortBench: A Correlation-Aware, Full-Pipeline Benchmark for LLM-Driven Portfolio Management
- arxiv url: http://arxiv.org/abs/2605.27887v2
- Date: Thu, 04 Jun 2026 13:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.576964
- Title: PortBench: A Correlation-Aware, Full-Pipeline Benchmark for LLM-Driven Portfolio Management
- Title(参考訳): PortBench: LLM駆動ポートフォリオ管理のための相関性のある完全なパイプラインベンチマーク
- Authors: Yuxuan Zhao, Sijia Chen, Ningxin Su,
- Abstract要約: 大規模言語モデル(LLM)は、様々な財務タスクにおいて強力なパフォーマンスを示しているが、ポートフォリオ管理(PM)はいまだにベンチマークが不十分である。
PortBenchは、10年間で6つの異種資産クラスにまたがるベンチマークです。
静的な財務QAの性能は高いが、モデルに目立った組み合わせの90%は、基本的等重量割当を上回りません。
- 参考スコア(独自算出の注目度): 15.684384084836223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown strong performance across diverse financial tasks, yet portfolio management (PM), a critical financial decision-making task, remains poorly benchmarked. Existing benchmarks exhibit two main gaps: they ignore cross-asset correlation structures, thereby failing to distinguish genuinely diversified portfolios from concentrated ones, and fail to evaluate the complete PM decision pipeline in real-world scenarios. We introduce PortBench, a benchmark spanning six heterogeneous asset classes over ten years. PortBench consists of two complementary layers: a static QA dataset of 6,269 correlation-based questions across seven task templates, and a dynamic five-stage allocation pipeline that mirrors the full PM decision cycle. To evaluate these layers, we introduce two dedicated metrics: a dual-layer correlation score that measures whether proposed portfolios exploit inter-class hedging and avoid intra-class concentration, and CEPS, a metric that quantifies how reasoning errors compound across pipeline stages. We further assess strategy robustness and investor alignment under three historical stress regimes and risk profiles. Evaluating ten frontier LLMs, we find that despite strong performance on static financial QA, 90\% of model-profile combinations fail to outperform a basic equal-weight allocation, and models that satisfy every procedural constraint still suffer catastrophic drawdowns under stress. Our source code is available at \href{https://github.com/AgenticFinLab/portbench}{this https URL}.
- Abstract(参考訳): 大規模言語モデル (LLM) は、様々な財政的タスクで高いパフォーマンスを示しているが、重要な金融決定タスクであるポートフォリオ管理 (PM) は、まだベンチマークが不十分である。
既存のベンチマークでは、クロスアセスト相関構造を無視し、真に多様化したポートフォリオと集中したポートフォリオを区別できず、実世界のシナリオで完全なPM決定パイプラインを評価できないという2つの大きなギャップが示されています。
PortBenchは、10年間で6つの異種資産クラスにまたがるベンチマークです。
PortBenchは,7つのタスクテンプレートにわたる6,269の相関ベースの静的QAデータセットと,PM決定サイクル全体を反映した動的5ステージアロケーションパイプラインという,2つの補完レイヤで構成されている。
これらの層を評価するために,提案するポートフォリオがクラス間ヘッジを利用してクラス内濃度を回避しているかどうかを測定する2層相関スコアと,パイプラインステージ間での推論エラーがどのように複雑であるかを定量化するCEPSという2層相関スコアを導入する。
3つの歴史的ストレス体制とリスクプロファイルの下で、戦略の堅牢性と投資家の整合性をさらに評価する。
10つのフロンティア LLM を評価すると、静的な財務QA の強い性能にもかかわらず、90 % のモデルが基本的等重割当を上回り得ず、全ての手続き的制約を満たすモデルが、ストレスの下で破滅的な損失を被っていることが分かる。
ソースコードは \href{https://github.com/AgenticFinLab/portbench}{this https URL} で公開されています。
関連論文リスト
- ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - PolyBench: Benchmarking LLM Forecasting and Trading Capabilities on Live Prediction Market Data [3.7753883100108525]
textbfPolyBenchは、生の市場信号から現実世界のイベントを予測するためのベンチマークである。
ポリベンチを用いて、7つの最先端の大規模言語モデルを評価する。
本フレームワークは, 方向性の精度, 信頼性-重み付きリターン(CWR), 年次パーセンテージ収率(APY), シャープ比を評価する。
論文 参考訳(メタデータ) (2026-04-03T06:25:21Z) - From Headlines to Holdings: Deep Learning for Smarter Portfolio Decisions [4.288926547930663]
ディープラーニングを用いてポートフォリオの重みを学習するエンドツーエンドフレームワークを提案する。
我々は、セクターの多様性とニュース報道のバランスをとるために選ばれた6つのセクターにまたがる9つの米国株の枠組みを評価する。
株式の世界は限られているが、結果はポートフォリオ管理のための価格、リレーショナル、感情信号の統合の価値を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-29T00:42:24Z) - Mitigating Cross-Modal Distraction and Ensuring Geometric Feasibility via Affordance-Guided and Self-Consistent MLLMs for Task Planning in Instruction-Following Manipulation [5.903105418868711]
食品準備シナリオに基づいた新しいベンチマークである textbfQuARC (Quantity, Analysis, Relative positioning, Collision) を導入する。
現在のMLLMの2つの大きな制限に対処する。
提案手法はベンチマークで76.7%の成功率を実現し,ViLaベースラインを著しく上回った。
論文 参考訳(メタデータ) (2025-03-17T11:01:02Z) - Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。