論文の概要: FinBoardBench: Benchmarking Dynamic Wealth Management and Strategic Financial Reasoning of LLMs via Board Game Simulations
- arxiv url: http://arxiv.org/abs/2605.27896v1
- Date: Wed, 27 May 2026 03:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.710776
- Title: FinBoardBench: Benchmarking Dynamic Wealth Management and Strategic Financial Reasoning of LLMs via Board Game Simulations
- Title(参考訳): FinBoardBench: ボードゲームシミュレーションによるLCMのダイナミックウェルス管理と戦略的財務推論のベンチマーク
- Authors: Xuesi Hu, Peng Wang, Jinpeng Miao, Xilin Tao, Caiwei Li, Yue Ma, Jie He, Qiancheng Zhang, Yuntao Zou, Dagang Li,
- Abstract要約: FinBoardBenchは、Cashflow、Acquire、Monopolyの3つの古典的な金融ボードゲームに基づく評価スイートである。
9 つの先進 LLM を用いた実験により, 基本的長期計画と投資論理を示す一方で, 複雑な相互作用を効果的に活用することができず, 利益を得ることができた。
- 参考スコア(独自算出の注目度): 8.662736233697926
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, large language models (LLMs) have achieved superior performance in static financial reasoning and simple dynamic trading tasks. However, existing static financial benchmarks are insufficient to assess the dynamic wealth management and financial decision-making capabilities of LLMs in real-world environments. To bridge this gap, we present FinBoardBench, an evaluation suite based on three classic financial board games: Cashflow, Acquire, and Monopoly. FinBoardBench assesses a comprehensive set of financial skills, including personal cash flow management with debt balancing, corporate investment and acquisition forecasting, and competitive trade negotiations with asset auctions. Our experiments with 9 advanced LLMs reveal that while exhibiting basic long-term planning and investment logic, they fail to effectively leverage complex interactions for profit, and their strong static reasoning performance does not transform into successful dynamic decision-making. Notably, they tend to prioritize immediate asset acquisition over maintaining sufficient liquidity, making them vulnerable to financial crises triggered by random events. We hope that FinBoardBench can provide a valuable reference for more intelligent LLM-based decision-making systems in the future.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は静的な金銭的推論や単純な動的取引タスクにおいて優れた性能を達成している。
しかし、実環境におけるLLMの動的富管理と金融決定能力を評価するには、既存の静的金融ベンチマークが不十分である。
このギャップを埋めるために、私たちはCashflow、Acquire、Monopolyという3つの古典的な金融ボードゲームに基づいた評価スイートであるFinBoardBenchを紹介します。
FinBoardBenchは、個人キャッシュフロー管理と債務バランス、企業投資と買収予測、資産競売との競争的貿易交渉を含む、包括的な金融スキルの評価を行っている。
9 つの先進 LLM を用いた実験により, 基本的長期計画と投資ロジックを示す一方で, 利益のために複雑な相互作用を効果的に活用することができず, その強い静的推論性能は動的意思決定に変化しないことがわかった。
特に、十分な流動性を維持することよりも即時資産取得を優先する傾向にあり、ランダムなイベントによって引き起こされる金融危機に対して脆弱である。
FinBoardBenchが将来、よりインテリジェントなLCMベースの意思決定システムに貴重なリファレンスを提供することを期待しています。
関連論文リスト
- FinTradeBench: A Financial Reasoning Benchmark for LLMs [3.2342681547638796]
FinTradeBenchは、会社のファンダメンタルズとトレーディングシグナルを統合する、財務的推論を評価するためのベンチマークである。
FinTradeBenchには、NASDAQ-100企業で10年の歴史の窓から1,400の質問が寄せられている。
論文 参考訳(メタデータ) (2026-03-19T17:59:41Z) - AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models [23.493646150407116]
リアルタイム取引性能の現在の評価は、重大な障害モードを見落としている:不確実性の下でのシーケンシャルな意思決定における厳しい行動不安定性である。
提案するAlphaForgeBenchは,大規模言語モデル(LLM)を,実行エージェントではなく定量的研究者として再構成する,原則化されたフレームワークである。
論文 参考訳(メタデータ) (2026-02-10T14:29:33Z) - FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain [54.06289302468199]
FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。
o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。
DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
論文 参考訳(メタデータ) (2025-10-17T01:45:49Z) - Trade in Minutes! Rationality-Driven Agentic System for Quantitative Financial Trading [57.28635022507172]
TiMiは、アーキテクチャ上、戦略開発を分単位のデプロイメントから切り離す合理性駆動型マルチエージェントシステムである。
本稿では,マクロパターンからマイクロカスタマイズ,トレーディングボット実装のための階層型プログラミング設計,数学的リフレクションによって駆動されるクローズドループ最適化までの2層解析パラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-06T13:08:55Z) - StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? [44.10622904101254]
大規模言語モデル(LLM)は、最近、自律エージェントとして強力な能力を示した。
実時間複数ヶ月の株式トレーディング環境でLLMエージェントを評価するためのベンチマークであるStockBenchを紹介する。
我々の評価では、ほとんどのLLMエージェントは、単純な買い買い得ベースラインよりも優れているが、いくつかのモデルでは、より高いリターンをもたらし、より効果的にリスクを管理する可能性を実証している。
論文 参考訳(メタデータ) (2025-10-02T16:54:57Z) - Deriving Strategic Market Insights with Large Language Models: A Benchmark for Forward Counterfactual Generation [55.2788567621326]
本稿では,FIN-FORCE-FINancial Forward Counterfactual Evaluationを提案する。
FIN-FORCEは金融ニュースの見出しをまとめることで、LLMベースの対実生成を支援する。
これにより、将来の市場展開を探索し、予測するためのスケーラブルで自動化されたソリューションの道を開くことができる。
論文 参考訳(メタデータ) (2025-05-26T02:41:50Z) - Will LLMs be Professional at Fund Investment? DeepFund: A Live Arena Perspective [10.932591941137698]
大規模言語モデル(LLM)は、様々な領域にまたがって印象的な能力を示してきたが、財務的な意思決定におけるその効果は、いまだに不十分である。
実環境におけるLCMベースのトレーディング戦略を評価するための総合的なアリーナプラットフォームであるDeepFundを紹介する。
当社のアプローチでは,実世界の投資決定プロセスを実現する上で,複数の重要な役割を担うマルチエージェントフレームワークを実装している。
論文 参考訳(メタデータ) (2025-03-24T03:32:13Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [48.87381259980254]
我々は、ChatGPTのような大規模言語モデル(LLM)が、直接の金融トレーニングなしでニュースの見出しから株式市場の反応を予測する能力について文書化している。
GPT-4は、認識後カットオフの見出しを使って、最初の市場の反応を捉え、取引不能な初期反応に対して、ポートフォリオの1日当たりのヒット率を約90%達成している。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。