Fugu-MT 論文翻訳(概要): Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

論文の概要: Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

arxiv url: http://arxiv.org/abs/2603.23638v1
Date: Tue, 24 Mar 2026 18:25:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:10.988081
Title: Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments
Title（参考訳）: LLMエージェントはCFOになれるか? 動的エンタープライズ環境におけるリソース配分のベンチマーク
Authors: Yi Han, Lingfei Qian, Yan Wang, Yueru He, Xueqing Peng, Dongji Feng, Yankai Chen, Haohang Li, Yupeng Cao, Jimin Huang, Xue Liu, Jian-Yun Nie, Sophia Ananiadou,
Abstract要約: 長期のエンタープライズリソースアロケーションにおけるエージェント評価のための最初のベンチマークであるEnterpriseArenaを紹介する。 CFOスタイルの意思決定を、企業レベルの財務データ、匿名化されたビジネス文書、マクロ経済と産業のシグナル、専門家が検証した運用ルールを組み合わせた132ヶ月の企業シミュレータでインスタンス化する。実験の結果、ランの16%のみが全地平線を乗り越えており、より大きなモデルでは、より小さなモデルよりも確実に性能が良くないことがわかった。
参考スコア（独自算出の注目度）: 39.051947374027435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have enabled agentic systems that can reason, plan, and act across complex tasks, but it remains unclear whether they can allocate resources effectively under uncertainty. Unlike short-horizon reactive decisions, allocation requires committing scarce resources over time while balancing competing objectives and preserving flexibility for future needs. We introduce EnterpriseArena, the first benchmark for evaluating agents on long-horizon enterprise resource allocation. It instantiates CFO-style decision-making in a 132-month enterprise simulator combining firm-level financial data, anonymized business documents, macroeconomic and industry signals, and expert-validated operating rules. The environment is partially observable and reveals the state only through budgeted organizational tools, forcing agents to trade off information acquisition against conserving scarce resources. Experiments on eleven advanced LLMs show that this setting remains highly challenging: only 16% of runs survive the full horizon, and larger models do not reliably outperform smaller ones. These results identify long-horizon resource allocation under uncertainty as a distinct capability gap for current LLM agents.
Abstract（参考訳）: 大規模言語モデル(LLM)は複雑なタスクに対して推論、計画、動作が可能なエージェントシステムを実現しているが、不確実性の下でリソースを効果的に割り当てることができるかどうかは不明だ。短期的なリアクティブな決定とは異なり、アロケーションには、競合する目標のバランスを保ちながら、時間の経過とともに不足するリソースのコミットと、将来のニーズに対する柔軟性の維持が必要だ。長期の企業リソース割り当てにおけるエージェント評価のための最初のベンチマークであるEnterpriseArenaを紹介する。 CFOスタイルの意思決定を、企業レベルの財務データ、匿名化されたビジネス文書、マクロ経済と産業のシグナル、専門家が検証した運用ルールを組み合わせた132ヶ月の企業シミュレータでインスタンス化する。環境は部分的に監視可能であり、予算化された組織ツールを通じてのみ状態を明らかにする。 11の先進的なLCMの実験では、この設定は非常に困難なままであり、ランの16%のみが全水平線を乗り越えており、より大きなモデルはより小さなものより確実に優れているわけではない。これらの結果から,現在のLLMエージェントの能力ギャップとして,不確実性の下での長期資源配分が確認された。

関連論文リスト

CN-Buzz2Portfolio: A Chinese-Market Dataset and Benchmark for LLM-Based Macro and Sector Asset Allocation from Daily Trending Financial News [21.498084305999992]
大規模言語モデル(LLM)は、静的自然言語処理(NLP)タスクから動的意思決定エージェントへと急速に移行している。直接のライブトレーディングは非生産的であり、スキルに幸運を抱くことによって結果バイアスを起こす傾向にあるが、既存の静的ベンチマークはエンティティレベルの株式選択に限定され、より広範な市場注目を無視することが多い。この研究は、一般的な推論と金融決定の整合性に関する新たな洞察を与え、持続可能な金融エージェントの研究を促進するために、すべてのデータ、コード、実験がリリースされる。
論文参考訳（メタデータ） (2026-03-18T02:31:28Z)
Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文参考訳（メタデータ） (2025-12-04T14:47:05Z)
StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? [44.10622904101254]
大規模言語モデル(LLM)は、最近、自律エージェントとして強力な能力を示した。実時間複数ヶ月の株式トレーディング環境でLLMエージェントを評価するためのベンチマークであるStockBenchを紹介する。我々の評価では、ほとんどのLLMエージェントは、単純な買い買い得ベースラインよりも優れているが、いくつかのモデルでは、より高いリターンをもたらし、より効果的にリスクを管理する可能性を実証している。
論文参考訳（メタデータ） (2025-10-02T16:54:57Z)
Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-04-25T15:59:16Z)
FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design [11.913409501633616]
textscFinMemは、金融上の意思決定のために考案された新しいLLMベースのエージェントフレームワークである。 textscFinMemのメモリモジュールは、人間のトレーダーの認知構造と密接に一致し、堅牢な解釈性を提供する。このフレームワークは、エージェントが専門知識を自己開発し、新しい投資方法にアジャイルに反応し、取引決定を継続的に洗練することを可能にする。
論文参考訳（メタデータ） (2023-11-23T00:24:40Z)
AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。