論文の概要: Mini Amusement Parks (MAPs): A Testbed for Modelling Business Decisions
- arxiv url: http://arxiv.org/abs/2511.15830v1
- Date: Wed, 19 Nov 2025 19:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.350266
- Title: Mini Amusement Parks (MAPs): A Testbed for Modelling Business Decisions
- Title(参考訳): ミニ・アミューズメント・パーク(MAP) : ビジネス決定をモデル化するためのテストベッド
- Authors: Stéphane Aroca-Ouellette, Ian Berlot-Attwell, Panagiotis Lymperopoulos, Abhiramon Rajasekharan, Tongqi Zhu, Herin Kang, Kaheer Suleman, Sam Pasupalak,
- Abstract要約: ミニ・アミューズメント・パーク(MAP)は、エージェントの環境をモデル化する能力を評価するために設計された遊園地シミュレータである。
我々は、ヒトのベースラインと最先端のLDMエージェントの総合評価を行い、ヒトは、容易モードでは6.5倍、中モードでは9.8倍、これらのシステムより優れていることを発見した。
- 参考スコア(独自算出の注目度): 1.9700834634644708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid progress in artificial intelligence, current systems struggle with the interconnected challenges that define real-world decision making. Practical domains, such as business management, require optimizing an open-ended and multi-faceted objective, actively learning environment dynamics from sparse experience, planning over long horizons in stochastic settings, and reasoning over spatial information. Yet existing human--AI benchmarks isolate subsets of these capabilities, limiting our ability to assess holistic decision-making competence. We introduce Mini Amusement Parks (MAPs), an amusement-park simulator designed to evaluate an agent's ability to model its environment, anticipate long-term consequences under uncertainty, and strategically operate a complex business. We provide human baselines and a comprehensive evaluation of state-of-the-art LLM agents, finding that humans outperform these systems by 6.5x on easy mode and 9.8x on medium mode. Our analysis reveals persistent weaknesses in long-horizon optimization, sample-efficient learning, spatial reasoning, and world modelling. By unifying these challenges within a single environment, MAPs offers a new foundation for benchmarking agents capable of adaptable decision making. Code: https://github.com/Skyfall-Research/MAPs
- Abstract(参考訳): 人工知能の急速な進歩にもかかわらず、現在のシステムは現実世界の意思決定を定義する相互接続的な課題に苦慮している。
ビジネスマネジメントのような実践的なドメインは、オープンで多面的な目的を最適化し、疎い経験から環境のダイナミクスを積極的に学習し、確率的な設定で長い地平線を計画し、空間情報を推論することを必要とする。
しかし、既存のヒューマンAIベンチマークはこれらの機能のサブセットを分離し、総合的な意思決定能力を評価する能力を制限する。
ミニ・アミューズメント・パーク(MAP)は,エージェントが環境をモデル化し,不確実性の下での長期的影響を予測し,複雑なビジネスを戦略的に運用する能力を評価するための遊園地シミュレータである。
我々は、ヒトのベースラインと最先端のLDMエージェントの総合評価を行い、ヒトは、容易モードでは6.5倍、中モードでは9.8倍、これらのシステムより優れていることを発見した。
本分析では, 長期的最適化, サンプル効率学習, 空間推論, 世界モデリングにおいて, 永続的な弱点を明らかにする。
MAPは、これらの課題を単一の環境に統一することで、適応可能な意思決定が可能なベンチマークエージェントのための新しい基盤を提供する。
コード:https://github.com/Skyfall-Research/MAPs
関連論文リスト
- HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds [0.0]
大規模言語モデル(LLM)は、数学やプログラミングのようなステップバイステップの推論タスクにおいて顕著な能力を示している。
しかし、ソリューションが拡張され、構造化された相互依存的なアクションのシーケンスを必要とする長期計画におけるそれらの習熟度は、まだ未解明のままである。
我々は,RPGにインスパイアされた複雑な仮想世界において,長期計画と構造化推論を評価するために設計された新しいベンチマークであるHeroBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T09:59:02Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文 参考訳(メタデータ) (2024-10-12T17:49:26Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。