論文の概要: LAST: Leveraging Tools as Hints to Enhance Spatial Reasoning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.09712v1
- Date: Wed, 08 Apr 2026 06:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.620799
- Title: LAST: Leveraging Tools as Hints to Enhance Spatial Reasoning for Multimodal Large Language Models
- Title(参考訳): LAST:マルチモーダル大規模言語モデルにおける空間推論の強化を目的としたツールの活用
- Authors: Shi-Yu Tian, Zhi Zhou, Kun-Yang Yu, Ming Yang, Yang Chen, Ziqiao Shang, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: 空間的推論は 知的なシステムが 物理的世界を理解し 相互作用する 基盤となる能力です
ツール強化空間推論のための統一的フレームワーク LAST を提案する。
LASTは、異種ツール呼び出しをアトミック命令に呼び出す、インタラクティブなサンドボックスであるLAST-Boxを備えている。
また、ツールのアウトプットの理解から、熟練した適応的なツールの実行まで、モデルをガイドする3段階のプログレッシブトレーニング戦略も設計しています。
- 参考スコア(独自算出の注目度): 27.76634830542925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning is a cornerstone capability for intelligent systems to perceive and interact with the physical world. However, multimodal large language models (MLLMs) frequently suffer from hallucinations and imprecision when parsing complex geometric layouts. As data-driven scaling struggles to internalize structured geometric priors and spatial constraints, integrating mature, specialized vision models presents a compelling alternative. Despite its promise, applying this paradigm to spatial reasoning is hindered by two key challenges: The difficulty of invoking heterogeneous, parameter-rich tools, as well as the challenge of understanding and effectively leveraging their diverse low-level outputs (e.g., segmentation masks, depth maps) in high-level reasoning. To address these challenges, we propose LAST, a unified framework for tool-augmented spatial reasoning. LAST features an extensible interactive sandbox, termed LAST-Box, which abstracts heterogeneous tool invocations into atomic instructions and reusable spatial skills, returning multimodal hints (e.g., annotated images and textual descriptions) that can be directly consumed by LLMs. We further design a three-stage progressive training strategy that guides models from understanding tool outputs to proficient and adaptive tool invocation. Experiments on four datasets show that LAST-7B achieves around 20\% performance gains over its backbone and outperforms strong proprietary closed-source LLMs, substantially enhancing reasoning on complex spatial tasks.
- Abstract(参考訳): 空間的推論は、知的システムが物理的世界を理解し、相互作用する基盤となる能力である。
しかし、マルチモーダルな大言語モデル(MLLM)は、複雑な幾何学的レイアウトを解析する際に、幻覚や不正確さに悩まされることが多い。
データ駆動のスケーリングは、構造化された幾何学的先行と空間的制約を内部化するのに苦労しているため、成熟した特殊な視覚モデルを統合することは魅力的な選択肢である。
その約束にもかかわらず、このパラダイムを空間的推論に適用することは、2つの重要な課題によって妨げられる: 不均一でパラメータリッチなツールを呼び出すことの難しさと、高レベルの推論において様々な低レベルのアウトプット(例えば、セグメンテーションマスク、深度マップ)を理解し、効果的に活用することの難しさ。
これらの課題に対処するため,ツール強化空間推論のための統一フレームワークであるLASTを提案する。
LAST-Boxと呼ばれる拡張可能な対話型サンドボックスは、異種ツールの呼び出しを原子命令と再利用可能な空間スキルに抽象化し、LLMが直接消費できるマルチモーダルヒント(例、注釈付き画像、テキスト記述)を返す。
さらに、ツールのアウトプットの理解から、熟練した適応的なツールの実行まで、モデルをガイドする3段階のプログレッシブトレーニング戦略を設計する。
4つのデータセットの実験により、LAST-7Bはバックボーンよりも約20倍の性能向上を達成し、強力なプロプライエタリなクローズドソースLCMよりも優れており、複雑な空間タスクの推論を大幅に強化していることが示された。
関連論文リスト
- GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning [17.389094942979455]
GeoLanGは言語誘導の把握のためのエンドツーエンドのマルチタスクフレームワークである。
視覚的および言語的な入力を共有表現空間に統一し、ロバストなセマンティックアライメントと一般化を改善する。
その結果,GeoLanGは複雑で散在した環境において,正確かつ堅牢な言語誘導の把握を可能にすることを示した。
論文 参考訳(メタデータ) (2026-02-04T05:42:55Z) - Scaling Spatial Reasoning in MLLMs through Programmatic Data Synthesis [8.60591720958037]
VLM(Vision-Language Models)はスケーラブルだが構造的に剛性があり、手動のアノテーションは言語的に多様だが拡張不可能である。
本稿では,シミュレータと大規模モデルを活用したこのジレンマを克服する新しいフレームワークSP-RITEを紹介する。
我々は,3つのシミュレータ,11k以上のシーン,300k以上の画像/映像のインストラクションチューニングペアを含むデータセットをキュレートした。
我々のデータに基づいて訓練されたVLMは、複数の空間ベンチマークにおいて大きな性能向上を達成できることを実証する。
論文 参考訳(メタデータ) (2025-12-18T06:30:08Z) - ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints [42.713620384054146]
本稿では,多段階空間推論能力の評価を目的とした新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。
パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
論文 参考訳(メタデータ) (2025-11-23T13:42:22Z) - SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文 参考訳(メタデータ) (2025-11-21T15:24:33Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。