論文の概要: DeliveryBench: Can Agents Earn Profit in Real World?
- arxiv url: http://arxiv.org/abs/2512.19234v1
- Date: Mon, 22 Dec 2025 10:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.709073
- Title: DeliveryBench: Can Agents Earn Profit in Real World?
- Title(参考訳): DeliveryBench:エージェントは現実世界で利益を上げることができるか?
- Authors: Lingjun Mao, Jiawei Ren, Kun Zhou, Jixuan Chen, Ziqiao Ma, Lianhui Qin,
- Abstract要約: DeliveryBenchは、実際のフードデリバリーの専門分野に根ざした、都市規模の実施型ベンチマークである。
我々は、9都市にわたるVLMベースのエージェントをベンチマークし、それらを人間のプレイヤーと比較する。
以上の結果から,これらのエージェントは近視眼的であり,基本的な常識的制約を頻繁に破っていることが判明した。
- 参考スコア(独自算出の注目度): 26.196587474768773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs and VLMs are increasingly deployed as embodied agents, yet existing benchmarks largely revolve around simple short-term tasks and struggle to capture rich realistic constraints that shape real-world decision making. To close this gap, we propose DeliveryBench, a city-scale embodied benchmark grounded in the real-world profession of food delivery. Food couriers naturally operate under long-horizon objectives (maximizing net profit over hours) while managing diverse constraints, e.g., delivery deadline, transportation expense, vehicle battery, and necessary interactions with other couriers and customers. DeliveryBench instantiates this setting in procedurally generated 3D cities with diverse road networks, buildings, functional locations, transportation modes, and realistic resource dynamics, enabling systematic evaluation of constraint-aware, long-horizon planning. We benchmark a range of VLM-based agents across nine cities and compare them with human players. Our results reveal a substantial performance gap to humans, and find that these agents are short-sighted and frequently break basic commonsense constraints. Additionally, we observe distinct personalities across models (e.g., adventurous GPT-5 vs. conservative Claude), highlighting both the brittleness and the diversity of current VLM-based embodied agents in realistic, constraint-dense environments. Our code, data, and benchmark are available at https://deliverybench.github.io.
- Abstract(参考訳): LLMとVLMは、ますます具体化エージェントとしてデプロイされているが、既存のベンチマークは、単純な短期的なタスクを中心に進化し、現実世界の意思決定を形作るリッチな現実的な制約を捉えるのに苦労している。
このギャップを埋めるために、現実の食品デリバリーの専門分野に根ざした都市規模の実施ベンチマークであるDeliveryBenchを提案する。
食品宅配業者は、例えば納期、輸送費、車両バッテリー、その他の宅配業者や顧客との必要なやりとりなど、多様な制約を管理しながら、長期的目標(時間的純利益の最大化)の下で自然に活動する。
DeliveryBenchはこの設定を、様々な道路ネットワーク、建物、機能的位置、輸送モード、現実的な資源動態を備えた手続き的に生成された3D都市でインスタンス化し、制約に配慮した長期計画の体系的な評価を可能にする。
我々は、9都市にわたるVLMベースのエージェントをベンチマークし、それらを人間のプレイヤーと比較する。
以上の結果から,これらのエージェントは近視眼的であり,基本的な常識的制約を頻繁に破っていることが判明した。
さらに, モデル間で異なる個性(例えば, 冒険的 GPT-5 vs. 保守的 クロード)を観察し, 現実的, 制約的環境下での現在のVLMをベースとしたエンボディエージェントの脆さと多様性を強調した。
私たちのコード、データ、ベンチマークはhttps://deliverybench.github.io.comで公開されています。
関連論文リスト
- VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications [20.065087936770215]
実世界の環境に根ざした多目的対話型タスクのエージェントを評価するベンチマークであるVitaBenchを紹介する。
VitaBenchは、66のツールを含む、これまでで最も複雑な生命維持シミュレーション環境を持つエージェントを提示する。
総合評価の結果,最も先進的なモデルでさえ,クロスシナリオタスクにおいて30%の成功率しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-09-30T16:33:49Z) - Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control [9.910562011343009]
バスの群れは交通と乗客の需要のために都市交通にとって困難である。
バス保持制御のための単エージェント強化学習フレームワークを提案する。
修正されたアクター・クリティは,ベンチマークよりも安定かつ優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-08-28T13:47:40Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - CityX: Controllable Procedural Content Generation for Unbounded 3D Cities [50.10101235281943]
現在の生成法は多様性、可制御性または忠実度に乏しい。
本研究では,高忠実度生成のための手続き的コンテンツ生成(PCG)技術を利用する。
我々は,OSM,セマンティックマップ,衛星画像などのマルチモーダル命令を実行可能なプログラムに変換するマルチエージェントフレームワークを開発した。
提案手法はCityXと呼ばれ,多種多様で制御可能でリアルな3D都市景観の創出において,その優位性を実証するものである。
論文 参考訳(メタデータ) (2024-07-24T18:05:13Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。