論文の概要: Geometrically-Constrained Agent for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2511.22659v1
- Date: Thu, 27 Nov 2025 17:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.669383
- Title: Geometrically-Constrained Agent for Spatial Reasoning
- Title(参考訳): 空間推論のための幾何学的制約付きエージェント
- Authors: Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng,
- Abstract要約: 視覚言語モデルは空間的推論において基本的な意味-幾何学的ギャップを示す。
現在のパラダイムは、このギャップを埋めることに失敗します。
本稿では,形式的タスク制約を導入することにより,このギャップを解消する学習自由エージェントパラダイムを提案する。
- 参考スコア(独自算出の注目度): 53.93718394870856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) exhibit a fundamental semantic-to-geometric gap in spatial reasoning: they excel at qualitative semantic inference but their reasoning operates within a lossy semantic space, misaligned with high-fidelity geometry. Current paradigms fail to bridge this gap. Training-based methods suffer from an ``oracle paradox,'' learning flawed spatial logic from imperfect oracles. Tool-integrated methods constrain the final computation but critically leave the VLM's planning process unconstrained, resulting in geometrically flawed plans. In this work, we propose Geometrically-Constrained Agent (GCA), a training-free agentic paradigm that resolves this gap by introducing a formal task constraint. Specifically, we strategically decouples the VLM's role into two stages. First, acting as a semantic analyst, the VLM translates the user's ambiguous query into the formal, verifiable task constraint, which defines the reference frame and objective. Second, acting as a task solver, the VLM generates and executes tool calls strictly within the deterministic bounds defined by the constraint. This geometrically-constrained reasoning strategy successfully resolve the semantic-to-geometric gap, yielding a robust and verifiable reasoning pathway for spatial reasoning. Comprehensive experiments demonstrate that GCA achieves SOTA performance on multiple spatial reasoning benchmarks, surpassing existing training-based and tool-integrated methods by ~27%. Please see our homepage at https://gca-spatial-reasoning.github.io.
- Abstract(参考訳): 視覚言語モデル(VLM)は、空間的推論において基本的な意味-幾何学的ギャップを示しており、定性的な意味推論において優れるが、それらの推論は、高忠実な幾何学と誤って、損失のある意味空間内で機能する。
現在のパラダイムは、このギャップを埋めることに失敗します。
トレーニングベースの手法は,不完全なオラクルから空間論理学の欠陥を学習する 'oracle paradox' に苦しむ。
ツール統合手法は最終計算を制約するが、VLMの計画プロセスは制約されず、幾何学的に欠陥がある。
本研究では,このギャップを解消するために,形式的タスク制約を導入することにより,トレーニング不要なエージェントパラダイムであるGeometrically-Constrained Agent (GCA)を提案する。
具体的には、戦略的にVLMの役割を2つの段階に分離する。
まず、セマンティック・アナリストとして機能し、VLMはユーザーのあいまいなクエリを形式的で検証可能なタスク制約に変換し、参照フレームと目的を定義する。
第二に、VLMはタスクソルバとして機能し、制約によって定義された決定論的境界内でツールコールを厳密に生成、実行します。
この幾何学的に制約された推論戦略は、意味と幾何学的ギャップの解決に成功し、空間的推論のための堅牢で検証可能な推論経路を生み出した。
総合的な実験により、GAAは複数の空間推論ベンチマークでSOTA性能を達成し、既存のトレーニングベースおよびツール統合メソッドを約27%上回った。
ホームページはhttps://gca-spatial-reasoning.github.io.com。
関連論文リスト
- Affordance-Guided Coarse-to-Fine Exploration for Base Placement in Open-Vocabulary Mobile Manipulation [30.86820285729615]
Affordance-Guided Coarse-to-Fine Explorationは、幾何学的実現性を備えた視覚言語モデルからの意味的理解を統合する。
我々のシステムは85%の成功率を実現し、古典的幾何学的プランナーやVLMに基づく手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-09T05:52:22Z) - Constraints-of-Thought: A Framework for Constrained Reasoning in Language-Model-Guided Search [3.0130126601831235]
Constraints-of-Thought (Const-o-T) はモンテカルロ木探索(MCTS)が意味論的に意味のある経路を探索できるようにするフレームワークである。
我々は、Const-o-Tが制約誘導推論の一般化可能な基盤を提供し、より効率的、制約整合性、ドメイン適応型プランニングを可能にすることを実証した。
論文 参考訳(メタデータ) (2025-10-10T04:21:18Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning [50.45036742963495]
我々は,先進的な具体的推論とタスクプランニングを可能にする,多元的多元的プランナーであるOmniEVAを紹介する。
Task-Adaptive 3D Groundingメカニズムは、様々な実施タスクに対してコンテキスト対応の3Dグラウンドを可能にする。
Embodiment-Aware Reasoningフレームワークは、タスクの目標と実施制約を推論ループに組み込む。
論文 参考訳(メタデータ) (2025-09-11T10:32:22Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Bridging Formal Language with Chain-of-Thought Reasoning to Geometry Problem Solving [9.550050299909184]
我々はChain-of-Thought(CoT)とフォーマル言語を統合する新しいアプローチを提案する。
このモデルは、ソルバ実行可能コードの漸進的な排出を伴う自然言語推論をインターリーブする。
Qwen2.5-VL-7Bに基づいて構築された新しいモデルGF-Reasonerは、標準GPSベンチマークで最大15%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-08-12T17:26:23Z) - PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation [14.311585896189506]
本稿では,タスク意味論と幾何学的特徴のギャップを埋めるために,Primitive-Aware Semantic Grounding (PASG)を提案する。
手動アノテーションに匹敵する性能を達成し,多様なシナリオにまたがる実用的なロボット操作タスクにおけるPASGの有効性を実証する。
論文 参考訳(メタデータ) (2025-08-08T03:23:33Z) - Mitigating Cross-Modal Distraction and Ensuring Geometric Feasibility via Affordance-Guided and Self-Consistent MLLMs for Task Planning in Instruction-Following Manipulation [5.903105418868711]
食品準備シナリオに基づいた新しいベンチマークである textbfQuARC (Quantity, Analysis, Relative positioning, Collision) を導入する。
現在のMLLMの2つの大きな制限に対処する。
提案手法はベンチマークで76.7%の成功率を実現し,ViLaベースラインを著しく上回った。
論文 参考訳(メタデータ) (2025-03-17T11:01:02Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。