論文の概要: StarDojo: Benchmarking Open-Ended Behaviors of Agentic Multimodal LLMs in Production-Living Simulations with Stardew Valley
- arxiv url: http://arxiv.org/abs/2507.07445v1
- Date: Thu, 10 Jul 2025 05:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.285934
- Title: StarDojo: Benchmarking Open-Ended Behaviors of Agentic Multimodal LLMs in Production-Living Simulations with Stardew Valley
- Title(参考訳): StarDojo:Stardew Valleyを用いた生産生活シミュレーションにおけるエージェントマルチモーダルLLMのオープンエンド動作のベンチマーク
- Authors: Weihao Tan, Changjiu Jiang, Yu Duan, Mingcong Lei, Jiageng Li, Yitian Hong, Xinrun Wang, Bo An,
- Abstract要約: 我々は、AIエージェントをオープンなプロダクションライビングシミュレーションで評価するための新しいベンチマークであるStarDojoを紹介した。
StarDojoは、農業、工芸、探検、戦闘、社会的相互作用の5つの主要な領域で、精巧に訓練されたタスクを1000個備えている。
効率的なモデル評価のための100個の代表タスクのコンパクトなサブセットを提供する。
- 参考スコア(独自算出の注目度): 17.706348191734822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents navigating human society must master both production activities and social interactions, yet existing benchmarks rarely evaluate these skills simultaneously. To bridge this gap, we introduce StarDojo, a novel benchmark based on Stardew Valley, designed to assess AI agents in open-ended production-living simulations. In StarDojo, agents are tasked to perform essential livelihood activities such as farming and crafting, while simultaneously engaging in social interactions to establish relationships within a vibrant community. StarDojo features 1,000 meticulously curated tasks across five key domains: farming, crafting, exploration, combat, and social interactions. Additionally, we provide a compact subset of 100 representative tasks for efficient model evaluation. The benchmark offers a unified, user-friendly interface that eliminates the need for keyboard and mouse control, supports all major operating systems, and enables the parallel execution of multiple environment instances, making it particularly well-suited for evaluating the most capable foundation agents, powered by multimodal large language models (MLLMs). Extensive evaluations of state-of-the-art MLLMs agents demonstrate substantial limitations, with the best-performing model, GPT-4.1, achieving only a 12.7% success rate, primarily due to challenges in visual understanding, multimodal reasoning and low-level manipulation. As a user-friendly environment and benchmark, StarDojo aims to facilitate further research towards robust, open-ended agents in complex production-living environments.
- Abstract(参考訳): 人社会をナビゲートする自律的なエージェントは生産活動と社会的相互作用の両方をマスターする必要があるが、既存のベンチマークではこれらのスキルを同時に評価することはめったにない。
このギャップを埋めるために、Stardew Valleyをベースとした新しいベンチマークであるStarDojoを紹介します。
スター・道場では、エージェントは農業や工芸などの重要な生活活動を行うとともに、活気あるコミュニティ内の関係を確立するために、同時に社会的交流を行う。
StarDojoは、農業、工芸、探検、戦闘、社会的相互作用の5つの主要な領域で、精巧に訓練されたタスクを1000個備えている。
さらに、効率的なモデル評価のための100個の代表タスクのコンパクトなサブセットを提供する。
このベンチマークは、キーボードとマウスの制御の必要性を排除し、主要なオペレーティングシステムをすべてサポートし、複数の環境インスタンスの並列実行を可能にし、特にマルチモーダルな大規模言語モデル(MLLM)を利用した最も有能な基盤エージェントの評価に適している、統一されたユーザフレンドリーなインターフェースを提供する。
最先端のMLLMエージェントの広範囲な評価では、最高のパフォーマンスモデルであるGPT-4.1は、視覚的理解、マルチモーダル推論、低レベルの操作といった課題によって、わずか12.7%の成功率しか達成していない。
StarDojoはユーザフレンドリーな環境とベンチマークとして、複雑なプロダクション環境で堅牢でオープンなエージェントへのさらなる研究を促進することを目指している。
関連論文リスト
- Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents [16.422314548224147]
大規模言語モデル(LLM)ベースのエージェントシステムは、従来のNLPタスクを超えて、現実世界のアプリケーションにおいて大きな進歩を遂げてきた。
本稿では,インタラクティブ環境において,より適用性が高く,課題の多いOvercooked-AIゲーム上に構築された新しいベンチマークであるCollab-Overcookedを提案する。
論文 参考訳(メタデータ) (2025-02-27T13:31:13Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。
我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。
JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文 参考訳(メタデータ) (2024-09-06T21:00:57Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。