論文の概要: Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21826v3
- Date: Thu, 05 Feb 2026 03:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.804389
- Title: Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models
- Title(参考訳): Mil-SCORE:大規模言語モデルにおける長期地理空間推論と計画のベンチマーク
- Authors: Aadi Palnitkar, Mingyang Mao, Nicholas Waytowich, Vinicius G. Goecks, Xiaomin Lin,
- Abstract要約: MilSCOREは、シミュレーションされた軍事計画シナリオに基づいて、専門家が作成したマルチホップ質問のシナリオレベルのデータセットである。
このベンチマークには、事実のリコールと多段階推論の両方を対象とする7つのカテゴリにわたる多様な質問タイプが含まれている。
以上の結果から,MilSCOREは現実的かつシナリオレベルの長期計画に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 1.8690248464957548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are applied to increasingly longer and more complex tasks, there is a growing need for realistic long-context benchmarks that require selective reading and integration of heterogeneous, multi-modal information sources. This need is especially acute for geospatial planning problems, such as those found in planning for large-scale military operations, which demand fast and accurate reasoning over maps, orders, intelligence reports, and other distributed data. To address this gap, we present MilSCORE (Military Scenario Contextual Reasoning), to our knowledge the first scenario-level dataset of expert-authored, multi-hop questions grounded in a complex, simulated military planning scenario used for training. MilSCORE is designed to evaluate high-stakes decision-making and planning, probing LLMs' ability to combine tactical and spatial reasoning across multiple sources and to reason over long-horizon, geospatially rich context. The benchmark includes a diverse set of question types across seven categories targeting both factual recall and multi-step reasoning about constraints, strategy, and spatial analysis. We provide an evaluation protocol and report baseline results for a range of contemporary vision-language models. Our findings highlight substantial headroom on MilSCORE, indicating that current systems struggle with realistic, scenario-level long-context planning, and positioning MilSCORE as a challenging testbed for future work.
- Abstract(参考訳): 大規模言語モデル(LLM)がより長く複雑なタスクに適用されるにつれて、多種多様な情報ソースの選択的参照と統合を必要とする現実的な長期コンテキストベンチマークの必要性が高まっている。
このニーズは特に、地図、命令、情報報告、その他の分散データに対する高速かつ正確な推論を必要とする大規模軍事作戦の計画に見られるような、地理空間的な計画上の問題にとって緊急である。
このギャップに対処するため、我々はMilSCORE(Military Scenario Contextual Reasoning)を、訓練に使用される複雑なシミュレートされた軍事計画シナリオに基づいて、専門家が作成したマルチホップ質問のシナリオレベルのデータセットとして、私たちの知識に提示する。
MilSCOREは、複数のソースにまたがる戦術的推論と空間的推論を組み合わせるLLMの能力を検証し、長期的、地理的に豊かなコンテキストを推論する、高い意思決定と計画を評価するように設計されている。
このベンチマークには、制約、戦略、空間分析に関する事実的リコールと多段階推論の両方を対象とする7つのカテゴリにわたる多様な質問タイプが含まれている。
本稿では,現代視覚言語モデルに対する評価プロトコルとベースライン結果の報告を行う。
この結果から,MilSCORE は現実的かつシナリオレベルの長期計画に苦慮し,MilSCORE を将来の作業の挑戦的テストベッドとして位置づけることが示唆された。
関連論文リスト
- AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems [71.89040853616602]
宇宙計画問題(SPP)におけるエージェント計画評価ベンチマークAstroReason-Benchを紹介する。
AstroReason-Benchは地上局通信やアジャイル地球観測を含む複数のスケジューリングシステムを統合し、統合されたエージェント指向のインタラクションプロトコルを提供する。
現在のエージェントは、現実的な制約下でのジェネラリスト計画の鍵となる制約を強調して、かなり性能が劣っていることが判明した。
論文 参考訳(メタデータ) (2026-01-16T15:02:41Z) - Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints [39.01715254437105]
本稿では,多面制約による計画課題を解決するための多面計画(MAoP)について紹介する。
MAoPは直接計画するのではなく、ストラテジストを活用して、さまざまな側面から事前計画を行い、プランナーのための計画青写真を提供する。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models [18.66263636077183]
大規模言語モデル(LLM)は様々な自然言語処理に優れるが、長い水平計画問題に悩まされることが多い。
この制限は、自動計画(AP)と自然言語処理(NLP)コミュニティにニューロシンボリックアプローチを統合することに関心を寄せている。
論文 参考訳(メタデータ) (2025-03-22T03:35:44Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。