論文の概要: Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21826v1
- Date: Thu, 29 Jan 2026 15:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.921446
- Title: Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models
- Title(参考訳): Mil-SCORE:大規模言語モデルにおける長期地理空間推論と計画のベンチマーク
- Authors: Aadi Palnitkar, Mingyang Mao, Nicholas Waytowich, Vinicius G. Goecks, Tinoosh Mohsenin, Xiaomin Lin,
- Abstract要約: MilSCOREは、シミュレーションされた軍事計画シナリオに基づいて、専門家が作成したマルチホップ質問のシナリオレベルのデータセットである。
このベンチマークには、事実のリコールと多段階推論の両方を対象とする7つのカテゴリにわたる多様な質問タイプが含まれている。
以上の結果から,MilSCOREは現実的かつシナリオレベルの長期計画に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 1.8747031623244303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are applied to increasingly longer and more complex tasks, there is a growing need for realistic long-context benchmarks that require selective reading and integration of heterogeneous, multi-modal information sources. This need is especially acute for geospatial planning problems, such as those found in planning for large-scale military operations, which demand fast and accurate reasoning over maps, orders, intelligence reports, and other distributed data. To address this gap, we present MilSCORE (Military Scenario Contextual Reasoning), to our knowledge the first scenario-level dataset of expert-authored, multi-hop questions grounded in a complex, simulated military planning scenario used for training. MilSCORE is designed to evaluate high-stakes decision-making and planning, probing LLMs' ability to combine tactical and spatial reasoning across multiple sources and to reason over long-horizon, geospatially rich context. The benchmark includes a diverse set of question types across seven categories targeting both factual recall and multi-step reasoning about constraints, strategy, and spatial analysis. We provide an evaluation protocol and report baseline results for a range of contemporary vision-language models. Our findings highlight substantial headroom on MilSCORE, indicating that current systems struggle with realistic, scenario-level long-context planning, and positioning MilSCORE as a challenging testbed for future work.
- Abstract(参考訳): 大規模言語モデル(LLM)がより長く複雑なタスクに適用されるにつれて、多種多様な情報ソースの選択的参照と統合を必要とする現実的な長期コンテキストベンチマークの必要性が高まっている。
このニーズは特に、地図、命令、情報報告、その他の分散データに対する高速かつ正確な推論を必要とする大規模軍事作戦の計画に見られるような、地理空間的な計画上の問題にとって緊急である。
このギャップに対処するため、我々はMilSCORE(Military Scenario Contextual Reasoning)を、訓練に使用される複雑なシミュレートされた軍事計画シナリオに基づいて、専門家が作成したマルチホップ質問のシナリオレベルのデータセットとして、私たちの知識に提示する。
MilSCOREは、複数のソースにまたがる戦術的推論と空間的推論を組み合わせるLLMの能力を検証し、長期的、地理的に豊かなコンテキストを推論する、高い意思決定と計画を評価するように設計されている。
このベンチマークには、制約、戦略、空間分析に関する事実的リコールと多段階推論の両方を対象とする7つのカテゴリにわたる多様な質問タイプが含まれている。
本稿では,現代視覚言語モデルに対する評価プロトコルとベースライン結果の報告を行う。
この結果から,MilSCORE は現実的かつシナリオレベルの長期計画に苦慮し,MilSCORE を将来の作業の挑戦的テストベッドとして位置づけることが示唆された。
関連論文リスト
- AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems [71.89040853616602]
宇宙計画問題(SPP)におけるエージェント計画評価ベンチマークAstroReason-Benchを紹介する。
AstroReason-Benchは地上局通信やアジャイル地球観測を含む複数のスケジューリングシステムを統合し、統合されたエージェント指向のインタラクションプロトコルを提供する。
現在のエージェントは、現実的な制約下でのジェネラリスト計画の鍵となる制約を強調して、かなり性能が劣っていることが判明した。
論文 参考訳(メタデータ) (2026-01-16T15:02:41Z) - MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。
動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文 参考訳(メタデータ) (2025-12-15T17:29:02Z) - HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds [0.0]
大規模言語モデル(LLM)は、数学やプログラミングのようなステップバイステップの推論タスクにおいて顕著な能力を示している。
しかし、ソリューションが拡張され、構造化された相互依存的なアクションのシーケンスを必要とする長期計画におけるそれらの習熟度は、まだ未解明のままである。
我々は,RPGにインスパイアされた複雑な仮想世界において,長期計画と構造化推論を評価するために設計された新しいベンチマークであるHeroBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T09:59:02Z) - A Modular Multitask Reasoning Framework Integrating Spatio-temporal Models and LLMs [38.304628241767055]
マルチタスク推論と実行のための分析機能を備えた大規模言語モデルを統合するフレームワークSTReasonを紹介する。
STReason は全ての指標において LLM ベースラインを著しく上回り、特に複雑で論理的・時間的シナリオにおいて優れていた。
人間の評価はSTReasonの信頼性と実用性を評価し、専門家の作業量を削減し、現実の多面的意思決定シナリオに適用性を広げる可能性を示す。
論文 参考訳(メタデータ) (2025-06-25T00:55:34Z) - Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints [39.01715254437105]
本稿では,多面制約による計画課題を解決するための多面計画(MAoP)について紹介する。
MAoPは直接計画するのではなく、ストラテジストを活用して、さまざまな側面から事前計画を行い、プランナーのための計画青写真を提供する。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models [18.66263636077183]
大規模言語モデル(LLM)は様々な自然言語処理に優れるが、長い水平計画問題に悩まされることが多い。
この制限は、自動計画(AP)と自然言語処理(NLP)コミュニティにニューロシンボリックアプローチを統合することに関心を寄せている。
論文 参考訳(メタデータ) (2025-03-22T03:35:44Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。