論文の概要: AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems
- arxiv url: http://arxiv.org/abs/2601.11354v1
- Date: Fri, 16 Jan 2026 15:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.531794
- Title: AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems
- Title(参考訳): AstroReason-Bench:異種宇宙計画問題における統一的エージェント計画の評価
- Authors: Weiyi Wang, Xinchi Chen, Jingjing Gong, Xuanjing Huang, Xipeng Qiu,
- Abstract要約: 宇宙計画問題(SPP)におけるエージェント計画評価ベンチマークAstroReason-Benchを紹介する。
AstroReason-Benchは地上局通信やアジャイル地球観測を含む複数のスケジューリングシステムを統合し、統合されたエージェント指向のインタラクションプロトコルを提供する。
現在のエージェントは、現実的な制約下でのジェネラリスト計画の鍵となる制約を強調して、かなり性能が劣っていることが判明した。
- 参考スコア(独自算出の注目度): 71.89040853616602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in agentic Large Language Models (LLMs) have positioned them as generalist planners capable of reasoning and acting across diverse tasks. However, existing agent benchmarks largely focus on symbolic or weakly grounded environments, leaving their performance in physics-constrained real-world domains underexplored. We introduce AstroReason-Bench, a comprehensive benchmark for evaluating agentic planning in Space Planning Problems (SPP), a family of high-stakes problems with heterogeneous objectives, strict physical constraints, and long-horizon decision-making. AstroReason-Bench integrates multiple scheduling regimes, including ground station communication and agile Earth observation, and provides a unified agent-oriented interaction protocol. Evaluating on a range of state-of-the-art open- and closed-source agentic LLM systems, we find that current agents substantially underperform specialized solvers, highlighting key limitations of generalist planning under realistic constraints. AstroReason-Bench offers a challenging and diagnostic testbed for future agentic research.
- Abstract(参考訳): エージェント型大規模言語モデル(LLM)の最近の進歩は、それらを多種多様なタスクにまたがる推論と行動が可能なジェネラリストプランナーとして位置づけている。
しかし、既存のエージェントベンチマークは主に象徴的あるいは弱弱な環境に焦点を当てており、物理に制約された現実世界の領域での性能は未調査のままである。
AstroReason-Benchは、宇宙計画問題(SPP)におけるエージェント計画の評価のための総合的なベンチマークであり、不均一な目的、厳密な物理的制約、長期の意思決定といった高額な課題のファミリーである。
AstroReason-Benchは地上局通信やアジャイル地球観測を含む複数のスケジューリングシステムを統合し、統合されたエージェント指向のインタラクションプロトコルを提供する。
最先端のオープン・クローズド・ソース・エージェント LLM システムの評価により,現在のエージェントは,現実的な制約下でのジェネラリスト計画の鍵となる制約を強調し,かなり性能が低いことがわかった。
AstroReason-Benchは、将来のエージェント研究のための挑戦的で診断的なテストベッドを提供する。
関連論文リスト
- Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。
具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。
我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2025-11-21T12:25:47Z) - Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents [49.3216026940601]
地球観測は、地球系の状態を理解するために不可欠である。
近年のMLLMは高度なEO研究を行っているが、多段階推論を必要とする複雑なタスクに対処する能力は乏しい。
我々は,MPPベースのツールエコシステム内でRGBとスペクトルEOデータを統一する最初のエージェントフレームワークであるEarth-Agentを紹介する。
論文 参考訳(メタデータ) (2025-09-27T06:04:28Z) - HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds [0.0]
大規模言語モデル(LLM)は、数学やプログラミングのようなステップバイステップの推論タスクにおいて顕著な能力を示している。
しかし、ソリューションが拡張され、構造化された相互依存的なアクションのシーケンスを必要とする長期計画におけるそれらの習熟度は、まだ未解明のままである。
我々は,RPGにインスパイアされた複雑な仮想世界において,長期計画と構造化推論を評価するために設計された新しいベンチマークであるHeroBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T09:59:02Z) - CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale [4.464959191643012]
我々は、次世代マルチエージェントエージェントAIフレームワークを評価するために設計されたオープンソースのベンチマークであるCREW-Wildfireを紹介する。
CREW-Wildfireは、大きな地図、異種エージェント、部分観測可能性、ダイナミックス、長期計画目的を含む手続き的に生成された山火事対応シナリオを提供する。
我々は、最先端のLLMベースのマルチエージェントエージェントAIフレームワークの実装と評価を行い、重要なパフォーマンスギャップを明らかにした。
論文 参考訳(メタデータ) (2025-07-07T16:33:42Z) - Benchmarking LLMs' Swarm intelligence [51.648605206159125]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
分散エージェントとして機能するLDMのタスクを体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
論文 参考訳(メタデータ) (2025-05-07T12:32:01Z) - Hierarchical Planning for Complex Tasks with Knowledge Graph-RAG and Symbolic Verification [5.727096041675994]
大型言語モデル(LLM)はロボットプランナーとして約束されているが、長い水平と複雑なタスクでしばしば苦労している。
本稿では,階層的計画生成のための知識グラフに基づくRAGを用いて,LLMベースのプランナを強化するニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-06T18:36:30Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。