論文の概要: MazeEval: A Benchmark for Testing Sequential Decision-Making in Language Models
- arxiv url: http://arxiv.org/abs/2507.20395v1
- Date: Sun, 27 Jul 2025 19:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.560908
- Title: MazeEval: A Benchmark for Testing Sequential Decision-Making in Language Models
- Title(参考訳): MazeEval: 言語モデルにおけるシーケンシャル意思決定のベンチマーク
- Authors: Hafsteinn Einarsson,
- Abstract要約: 本稿では,大規模言語モデルにおける純粋空間推論の分離と評価を目的としたベンチマークであるMazeEvalを紹介する。
我々は,英語とアイスランド語で同一の迷路にまたがる8つの最先端LLMを評価し,空間能力の言語間移動を評価する。
- 参考スコア(独自算出の注目度): 0.0679877553227375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) increasingly power autonomous agents in robotics and embodied AI, understanding their spatial reasoning capabilities becomes crucial for ensuring reliable real-world deployment. Despite advances in language understanding, current research lacks evaluation of how LLMs perform spatial navigation without visual cues, a fundamental requirement for agents operating with limited sensory information. This paper addresses this gap by introducing MazeEval, a benchmark designed to isolate and evaluate pure spatial reasoning in LLMs through coordinate-based maze navigation tasks. Our methodology employs a function-calling interface where models navigate mazes of varying complexity ($5\times 5$ to $15\times 15$ grids) using only coordinate feedback and distance-to-wall information, excluding visual input to test fundamental spatial cognition. We evaluate eight state-of-the-art LLMs across identical mazes in both English and Icelandic to assess cross-linguistic transfer of spatial abilities. Our findings reveal striking disparities: while OpenAI's O3 achieves perfect navigation for mazes up to size $30\times 30$, other models exhibit catastrophic failure beyond $9\times 9$ mazes, with 100% of failures attributed to excessive looping behavior where models revisit a cell at least 10 times. We document a significant performance degradation in Icelandic, with models solving mazes 3-4 sizes smaller than in English, suggesting spatial reasoning in LLMs emerges from linguistic patterns rather than language-agnostic mechanisms. These results have important implications for global deployment of LLM-powered autonomous systems, showing spatial intelligence remains fundamentally constrained by training data availability and highlighting the need for architectural innovations to achieve reliable navigation across linguistic contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)がロボット工学やAIの自律エージェントをますます力づけるにつれて、その空間的推論能力を理解することは、信頼性の高い現実世界のデプロイメントを保証する上で重要である。
言語理解の進歩にもかかわらず、現在の研究では、視覚的手がかりを伴わずにLLMがどのように空間ナビゲーションを行うかの評価が欠如している。
本稿では、座標ベースの迷路ナビゲーションタスクを用いて、LLMにおける純粋空間的推論を分離し評価するベンチマークであるMazeEvalを導入することにより、このギャップに対処する。
我々の手法は関数呼び出しインタフェースを用いており、基本的な空間認識をテストするための視覚入力を除いて、座標フィードバックと距離-壁情報のみを用いて、モデルが様々な複雑さの迷路をナビゲートする(5\times 5$から15\times 15$ grids)。
我々は,英語とアイスランド語で同一の迷路にまたがる8つの最先端LLMを評価し,空間能力の言語間移動を評価する。
OpenAIのO3は30ドル(約3万3000円)までの迷路の完全なナビゲーションを実現していますが、他のモデルでは9ドル(約9万3000円)を超える破滅的な失敗を示しています。
アイスランド語では,モーゼの3~4サイズを英語より小さく解いたモデルにより,LLMの空間的推論が言語に依存しないメカニズムよりも言語パターンから現れることが示唆された。
これらの結果は、LLMによる自律システムのグローバル展開に重要な意味を持ち、空間知性は、データ可用性のトレーニングによって根本的な制約を受けており、言語コンテキストを越えた信頼性の高いナビゲーションを実現するためのアーキテクチャ革新の必要性を強調している。
関連論文リスト
- Bridging Perception and Language: A Systematic Benchmark for LVLMs' Understanding of Amodal Completion Reports [10.925743866700037]
本研究では,アモーダル完了に関連するテキストに基づいて,大規模視覚言語モデルの推論能力について検討する。
以上の結果から,LVLMは人間に比較可能な性能を全般的に達成するが,その精度は特定の種類のオブジェクトに対してばらつきが生じることが示唆された。
興味深いことに、この格差は日本語のプロンプトの下でのみ出現し、これらのモデルにおいて日本語固有の言語能力の欠如が示唆されている。
論文 参考訳(メタデータ) (2025-07-08T09:06:47Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - From Text to Space: Mapping Abstract Spatial Models in LLMs during a Grid-World Navigation Task [0.0]
グリッドワールドナビゲーションタスクにおける大規模言語モデル(LLM)の性能と内部アクティベーションに及ぼすテキストベース空間表現の影響について検討する。
実験の結果, 空間のカルデシアン表現は, モデルサイズに比例して高い成功率と経路効率が得られることがわかった。
この研究は、LLMが空間情報をどのように処理するかの理解を深め、より解釈可能で堅牢なエージェントAIシステムの開発に有用な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-23T19:09:01Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。