論文の概要: EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies
- arxiv url: http://arxiv.org/abs/2602.09514v1
- Date: Tue, 10 Feb 2026 08:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.442588
- Title: EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies
- Title(参考訳): EcoGym:対話型エコノミーにおける長期計画・実行のためのLCMの評価
- Authors: Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, Jincheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, Yuchen Elenor Jiang, Wei Wang, He Zhu, Wangchunshu Zhou,
- Abstract要約: 対話型経済における継続的計画・実行意思決定のためのベンチマークであるEcoGymを紹介する。
EcoGymは、透明性のある長期的なエージェント評価のためのオープンなテストベッドとしてリリースされ、現実的な経済環境下でのコントロール可能性とユーティリティのトレードオフを研究するためのものだ。
- 参考スコア(独自算出の注目度): 59.05626019028906
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.
- Abstract(参考訳): 長期計画は、自律的なLLMエージェントの中核的能力として広く認識されているが、現在の評価フレームワークは、主にエピソジック、ドメイン固有、あるいは持続的な経済力学に根ざした不十分な基盤に悩まされている。
対話型経済における継続的計画・実行意思決定のための一般化可能なベンチマークであるEcoGymを紹介する。
EcoGymは3つの異なる環境で構成されている。Vending、Freelance、Operationは、標準化されたインターフェースを備えた統一された意思決定プロセスで実装され、事実上無制限な地平線(評価のために365日ループで1000以上のステップ)上での予算化されたアクションである。
EcoGymの評価は、ビジネス関連の結果(例えば、純価値、所得、DAU)に基づいており、部分的可観測性と確率性の下での長期的な戦略的一貫性と堅牢性をターゲットにしている。
11のLLMを対象とした実験では、体系的な緊張が表面化している。
重要なことは、モデルがハイレベル戦略または効率的なアクション実行において、かなりの亜最適性を示すことを発見した。
EcoGymは、透明な長距離エージェント評価のためのオープンで拡張可能なテストベッドとしてリリースされ、現実的な経済環境下での可制御性・実用性トレードオフを研究する。
関連論文リスト
- Mini Amusement Parks (MAPs): A Testbed for Modelling Business Decisions [1.9700834634644708]
ミニ・アミューズメント・パーク(MAP)は、エージェントの環境をモデル化する能力を評価するために設計された遊園地シミュレータである。
我々は、ヒトのベースラインと最先端のLDMエージェントの総合評価を行い、ヒトは、容易モードでは6.5倍、中モードでは9.8倍、これらのシステムより優れていることを発見した。
論文 参考訳(メタデータ) (2025-11-19T19:38:05Z) - AI Playing Business Games: Benchmarking Large Language Models on Managerial Decision-Making in Dynamic Simulations [0.0]
本研究は,ビジネスにおける意思決定にビジネスゲームを用いた新しいベンチマークを解析する。
この研究は、再現可能なオープンアクセス管理シミュレータを提案することで、AIに関する最近の文献に貢献する。
論文 参考訳(メタデータ) (2025-09-30T14:43:05Z) - Continuous-Time Reinforcement Learning for Asset-Liability Management [0.0]
本稿では,連続時間強化学習(RL)を用いたアセット・リバビリティ・マネジメント(ALM)の新しいアプローチを提案する。
本研究では,アセットと負債を動的に同期する ALM に適した,モデルフリーでポリシー勾配に基づくソフトアクター批判アルゴリズムを開発した。
本研究は,従来の2つの金融戦略,モデルベース連続時間RL法,最先端RLアルゴリズムに対するアプローチを実証的に評価する。
論文 参考訳(メタデータ) (2025-09-27T12:36:51Z) - Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文 参考訳(メタデータ) (2025-06-04T14:58:27Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。