論文の概要: HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
- arxiv url: http://arxiv.org/abs/2508.12782v1
- Date: Mon, 18 Aug 2025 09:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.172336
- Title: HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
- Title(参考訳): HeroBench: 仮想世界での長期計画と構造化推論のためのベンチマーク
- Authors: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette,
- Abstract要約: 大規模言語モデル(LLM)は、数学やプログラミングのようなステップバイステップの推論タスクにおいて顕著な能力を示している。
しかし、ソリューションが拡張され、構造化された相互依存的なアクションのシーケンスを必要とする長期計画におけるそれらの習熟度は、まだ未解明のままである。
我々は,RPGにインスパイアされた複雑な仮想世界において,長期計画と構造化推論を評価するために設計された新しいベンチマークであるHeroBenchを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in isolated step-by-step reasoning tasks such as mathematics and programming, but their proficiency in long-horizon planning, where solutions require extended, structured sequences of interdependent actions, remains underexplored. Existing benchmarks typically assess LLMs through abstract or low-dimensional algorithmic tasks, failing to capture the complexity of realistic planning environments. We introduce HeroBench, a novel benchmark designed specifically to evaluate long-horizon planning and structured reasoning within complex RPG-inspired virtual worlds. HeroBench provides a rigorously constructed dataset of tasks covering a wide range of difficulties, a simulated environment to execute and validate agent plans, and detailed analytical tools for evaluating model performance. Tasks challenge models to formulate strategic plans, efficiently gather resources, master necessary skills, craft equipment, and defeat adversaries, reflecting practical scenarios' layered dependencies and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning both open-source and proprietary models, including the GPT-5 family, reveals substantial performance disparities rarely observed in conventional reasoning benchmarks. Detailed error analysis further uncovers specific weaknesses in current models' abilities to generate robust high-level plans and reliably execute structured actions. HeroBench thus not only significantly advances the evaluation of LLM reasoning but also provides a flexible, scalable foundation for future research into advanced, autonomous planning in virtual environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学やプログラミングのような独立したステップバイステップの推論タスクにおいて顕著な能力を示してきたが、長い水平計画において、解が拡張され、構造化された相互依存アクションのシーケンスを必要とするようなそれらの能力は、まだ探索されていない。
既存のベンチマークでは、抽象的あるいは低次元のアルゴリズムタスクを通じてLCMを評価し、現実的な計画環境の複雑さを捉えることができない。
我々は,RPGにインスパイアされた複雑な仮想世界において,長期計画と構造化推論を評価するために設計された新しいベンチマークであるHeroBenchを紹介する。
HeroBenchは、幅広い困難をカバーするタスクの厳密に構築されたデータセット、エージェント計画の実行と検証のためのシミュレーション環境、モデルパフォーマンスを評価するための詳細な分析ツールを提供する。
タスクは、戦略計画を定式化し、リソースを効率的に収集し、必要なスキルを習得し、機器を作り、敵を倒し、現実的なシナリオの階層化された依存関係と制約を反映するモデルに挑戦する。
GPT-5ファミリーを含むオープンソースモデルとプロプライエタリモデルの両方にまたがる25の最先端LCMの広範な評価を行ったところ、従来の推論ベンチマークではほとんど見られなかった相当な性能格差が明らかとなった。
詳細なエラー解析により、現在のモデルで堅牢な高レベルプランを生成し、確実に構造化されたアクションを実行する能力の特定の弱点が明らかにされる。
したがって、HeroBenchはLLM推論の評価を大幅に進歩させるだけでなく、仮想環境における高度な自律計画の研究に柔軟でスケーラブルな基盤を提供する。
関連論文リスト
- A Modular Multitask Reasoning Framework Integrating Spatio-temporal Models and LLMs [38.304628241767055]
マルチタスク推論と実行のための分析機能を備えた大規模言語モデルを統合するフレームワークSTReasonを紹介する。
STReason は全ての指標において LLM ベースラインを著しく上回り、特に複雑で論理的・時間的シナリオにおいて優れていた。
人間の評価はSTReasonの信頼性と実用性を評価し、専門家の作業量を削減し、現実の多面的意思決定シナリオに適用性を広げる可能性を示す。
論文 参考訳(メタデータ) (2025-06-25T00:55:34Z) - Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators [34.28879194786174]
オープンワールド環境における汎用的なロボット移動操作は、長い地平線、複雑な目標、部分的な観測可能性といった大きな課題を生んでいる。
これらの課題に対処するための有望なアプローチは、タスクプランナーがこれらのスキルをシーケンスして、構造化言語で指定された目標を達成する、パラメータ化されたスキルのライブラリを計画することである。
本稿では、視覚言語モデルを利用して不確実性を推定し、シンボリックグラウンド化を促進する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-04T07:48:53Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。