論文の概要: Warehouse Spatial Question Answering with LLM Agent
- arxiv url: http://arxiv.org/abs/2507.10778v2
- Date: Thu, 14 Aug 2025 03:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.43473
- Title: Warehouse Spatial Question Answering with LLM Agent
- Title(参考訳): LLMエージェントを用いた倉庫空間質問応答
- Authors: Hsiang-Wei Huang, Jen-Hao Cheng, Kuang-Ming Chen, Cheng-Yen Yang, Bahaa Alattar, Yi-Ru Lin, Pyongkun Kim, Sangwon Kim, Kwangju Kim, Chung-I Huang, Jenq-Neng Hwang,
- Abstract要約: 本研究では,強い空間推論能力を有するLLMエージェントシステムを提案する。
本システムでは,LLMエージェントが空間推論やAPIツールのインタラクションを行うための複数のツールを統合している。
本システムでは,オブジェクト検索,カウント,距離推定などのタスクにおいて高い精度と効率を実現する。
- 参考スコア(独自算出の注目度): 18.821295196340383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial understanding has been a challenging task for existing Multi-modal Large Language Models~(MLLMs). Previous methods leverage large-scale MLLM finetuning to enhance MLLM's spatial understanding ability. In this paper, we present a data-efficient approach. We propose a LLM agent system with strong and advanced spatial reasoning ability, which can be used to solve the challenging spatial question answering task in complex indoor warehouse scenarios. Our system integrates multiple tools that allow the LLM agent to conduct spatial reasoning and API tools interaction to answer the given complicated spatial question. Extensive evaluations on the 2025 AI City Challenge Physical AI Spatial Intelligence Warehouse dataset demonstrate that our system achieves high accuracy and efficiency in tasks such as object retrieval, counting, and distance estimation. The code is available at: https://github.com/hsiangwei0903/SpatialAgent
- Abstract(参考訳): 空間理解は、既存のマルチモーダル大規模言語モデル~(MLLM)にとって難しい課題である。
従来の手法ではMLLMの空間理解能力を高めるために大規模なMLLMファインタニングを活用していた。
本稿では,データ効率のよい手法を提案する。
本研究では, 複雑な屋内倉庫シナリオにおける空間質問応答課題の解決に有効な, 高度空間推論能力を有するLLMエージェントシステムを提案する。
本システムでは,LLMエージェントが空間的推論とAPIツールのインタラクションを行い,複雑な空間的問題に答える複数のツールを統合している。
2025年のAIシティチャレンジ物理AI空間情報ウェアハウスデータセットの大規模な評価は、対象の検索、カウント、距離推定などのタスクにおいて、我々のシステムが高い精度と効率を達成することを示す。
コードは、https://github.com/hsiangwei0903/SpatialAgent.comで入手できる。
関連論文リスト
- Can Large Language Models Integrate Spatial Data? Empirical Insights into Reasoning Strengths and Computational Weaknesses [11.330846631937671]
我々は,大規模で異質で騒々しい都市空間データセットの統合において,ドメインエキスパートに力を与えるために,大規模言語モデル(LLM)の適用について検討する。
LLMは空間的推論能力を示すが、マクロスケール環境と関連する計算幾何学的タスクを結びつけるのに苦労している。
この手法は, 正確な応答を保ちながら, 誤った初期応答の補正に極めて有効であることを示す。
論文 参考訳(メタデータ) (2025-08-07T03:44:20Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - LLMs for Robotic Object Disambiguation [21.101902684740796]
本研究は,LLMが複雑な意思決定課題の解決に適していることを明らかにする。
我々の研究の重要な焦点は、LLMのオブジェクトの曖昧化能力である。
我々は,LLMのあいまいなクエリを提示する能力を改善するために,数発のプロンプトエンジニアリングシステムを開発した。
論文 参考訳(メタデータ) (2024-01-07T04:46:23Z) - Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。
本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文 参考訳(メタデータ) (2023-10-31T10:57:35Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。