論文の概要: INVESTORBENCH: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent
- arxiv url: http://arxiv.org/abs/2412.18174v1
- Date: Tue, 24 Dec 2024 05:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:00.334798
- Title: INVESTORBENCH: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent
- Title(参考訳): InVESTORBENCH: LLMエージェントを用いた財務意思決定タスクのベンチマーク
- Authors: Haohang Li, Yupeng Cao, Yangyang Yu, Shashidhar Reddy Javaji, Zhiyang Deng, Yueru He, Yuechen Jiang, Zining Zhu, Koduvayur Subbalakshmi, Guojun Xiong, Jimin Huang, Lingfei Qian, Xueqing Peng, Qianqian Xie, Jordan W. Suchow,
- Abstract要約: InvestorBenchは、大規模言語モデル(LLM)ベースのエージェントを財務的な意思決定コンテキストで評価するためのベンチマークである。
株式、暗号通貨、ETFなどの単一株式を含む、さまざまな金融商品に適用可能な包括的なタスクスイートを提供する。
また,13種類のLDMをバックボーンモデルとして,エージェントフレームワークの推論と意思決定能力の評価を行った。
- 参考スコア(独自算出の注目度): 15.562784986263654
- License:
- Abstract: Recent advancements have underscored the potential of large language model (LLM)-based agents in financial decision-making. Despite this progress, the field currently encounters two main challenges: (1) the lack of a comprehensive LLM agent framework adaptable to a variety of financial tasks, and (2) the absence of standardized benchmarks and consistent datasets for assessing agent performance. To tackle these issues, we introduce \textsc{InvestorBench}, the first benchmark specifically designed for evaluating LLM-based agents in diverse financial decision-making contexts. InvestorBench enhances the versatility of LLM-enabled agents by providing a comprehensive suite of tasks applicable to different financial products, including single equities like stocks, cryptocurrencies and exchange-traded funds (ETFs). Additionally, we assess the reasoning and decision-making capabilities of our agent framework using thirteen different LLMs as backbone models, across various market environments and tasks. Furthermore, we have curated a diverse collection of open-source, multi-modal datasets and developed a comprehensive suite of environments for financial decision-making. This establishes a highly accessible platform for evaluating financial agents' performance across various scenarios.
- Abstract(参考訳): 近年の進歩は、金融意思決定における大規模言語モデル(LLM)に基づくエージェントの可能性を強調している。
この進歩にもかかわらず、この分野は、(1)様々な金融業務に適応可能な総合的なLLMエージェントフレームワークの欠如、(2)標準化されたベンチマークとエージェントのパフォーマンスを評価するための一貫したデータセットの欠如、という2つの大きな課題に直面している。
これらの問題に対処するために, LLM ベースのエージェントを多種多様な財務意思決定コンテキストで評価するためのベンチマークである \textsc{InvestorBench} を導入する。
投資家ベンチは、株式、暗号通貨、為替取引基金(ETFs)など、さまざまな金融商品に適用可能な包括的なタスクスイートを提供することで、LLM対応エージェントの汎用性を高める。
さらに,13の異なるLCMをバックボーンモデルとして,さまざまな市場環境やタスクにわたって,エージェントフレームワークの推論と意思決定能力を評価した。
さらに、オープンソースのマルチモーダルデータセットの多種多様なコレクションをキュレートし、金融意思決定のための総合的な環境スイートを開発しました。
これにより、さまざまなシナリオで財務担当者のパフォーマンスを評価するための、非常にアクセスしやすいプラットフォームが確立される。
関連論文リスト
- EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを13件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Demystifying Domain-adaptive Post-training for Financial LLMs [79.581577578952]
FINDAPは、大規模言語モデル(LLM)のドメイン適応後学習に関する体系的できめ細かな研究である
このアプローチは、FinCap、FinRec、FinTrain、FinEvalの4つの重要なコンポーネントで構成されています。
結果として得られるモデルであるLlama-Finは、幅広い財務タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-09T04:26:15Z) - FinVision: A Multi-Agent Framework for Stock Market Prediction [0.0]
本研究では,金融取引タスクに特化して設計されたマルチモーダルマルチエージェントシステムを提案する。
提案手法の重要な特徴はリフレクションモジュールの統合である。
論文 参考訳(メタデータ) (2024-10-29T06:02:28Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Automate Strategy Finding with LLM in Quant investment [4.46212317245124]
ポートフォリオ管理とアルファマイニングにおける定量株式投資のための新しい枠組みを提案する。
本稿では,大規模言語モデル(LLM)がマルチモーダル財務データからアルファ因子を抽出する枠組みを提案する。
中国株式市場の実験は、この枠組みが最先端のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-10T07:42:28Z) - CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。
金融分類、財務文書要約、単一株式取引について検討する。
提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文 参考訳(メタデータ) (2024-07-02T05:04:13Z) - A Multimodal Foundation Agent for Financial Trading: Tool-Augmented, Diversified, and Generalist [33.82344864007857]
FinAgentは金融取引タスクのためのマルチモーダル・ファンデーション・エージェントである。
金融市場を正確に分析するために、多種多様なデータ数字、テキスト、視覚的に処理する。
既存のトレーディング戦略と専門家の洞察を統合し、そのトレーディングアプローチがデータ駆動であり、健全な金融原則に根ざしていることを保証する。
論文 参考訳(メタデータ) (2024-02-28T17:06:54Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Large Language Models in Finance: A Survey [12.243277149505364]
大規模言語モデル(LLM)は、金融における人工知能応用の新しい可能性を開いた。
大規模言語モデル(LLM)の最近の進歩は、金融における人工知能応用の新しい可能性を開いた。
論文 参考訳(メタデータ) (2023-09-28T06:04:04Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。