論文の概要: Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.02459v1
- Date: Mon, 01 Jun 2026 16:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.504409
- Title: Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models
- Title(参考訳): ハトのように活発に探索する:エージェントビジョン・ランゲージモデルによる空間推論の強化
- Authors: Wei Deng, Xianlin Zhang, Mengshi Qi,
- Abstract要約: 既存のアプローチでは、空間言語モデル(VLM)を受動的オブザーバとして扱うが、現実のアプリケーションでは難しい。
そこで本研究では,ハトによるナビゲーションのための認知マップの構築と活用に着想を得て,空間推論のための新しいエージェントパイプラインを提案する。
VisionCubeベンチマークの実験では、emph80.5%の精度で最先端のパフォーマンスを示し、emph29.5の精度ポイントで最高の電流法を上回った。
- 参考スコア(独自算出の注目度): 17.24700274670692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling Vision-Language Models (VLMs) to perform spatial reasoning remains challenging. Existing approaches treat VLMs as passive observers, which is difficult for real-world applications. Moreover, reinforcement learning methods rely on sparse rewards, limiting their effectiveness for complex reasoning tasks. Inspired by pigeons' building and exploiting cognitive maps for navigation, we propose a novel agentic pipeline for spatial reasoning. First, we introduce a new \emph{dynamic cognitive map} parameterizing scene layout as object positions and orientations, serving as persistent memory for new observations. Second, we propose a novel \emph{Spatial Assertion Codes (SAC)}, Python expressions programmatically describing spatial relationships. By collaborating with the dynamic cognitive map, SAC enables verification of intermediate reasoning steps, providing dense reward signals. We optimize the model via supervised and reinforcement finetuning. Experiments on the MindCube benchmark demonstrate state-of-the-art performance with \emph{80.5\%} overall accuracy, outperforming the best current method by \emph{29.5} accuracy points (a relative improvement of \emph{53.2\%}) on the challenging \textsc{Rotation} subset. Our code and data are open-sourced at https://github.com/dw-dengwei/active-spatial-reasoning.git.
- Abstract(参考訳): 空間推論を行うための視覚言語モデル(VLM)の導入は依然として困難である。
既存のアプローチでは、VLMを受動的オブザーバとして扱うが、現実のアプリケーションでは難しい。
さらに、強化学習法はスパース報酬に依存し、複雑な推論タスクの有効性を制限する。
そこで本研究では,ハトによるナビゲーションのための認知マップの構築と活用に着想を得て,空間推論のための新しいエージェントパイプラインを提案する。
まず、シーンレイアウトをオブジェクトの位置と向きとしてパラメータ化し、新しい観測のための永続記憶として機能する。
第二に,空間的関係をプログラム的に記述したPython表現である,新規な \emph{Spatial Assertion Codes (SAC) を提案する。
動的認知マップと協調することにより、SACは中間的推論ステップの検証を可能にし、深い報酬信号を提供する。
教師および強化ファインタニングによりモデルを最適化する。
MindCubeベンチマークの実験では、挑戦的な \textsc{Rotation} サブセット上での、 \emph{29.5} の精度ポイントによる最高の電流法( \emph{53.2\%} の相対的な改善)よりも優れた、全体的な精度で最先端のパフォーマンスを示す。
コードとデータはhttps://github.com/dw-dengwei/active-spatial-reasoning.git.comで公開されている。
関連論文リスト
- Plan in Sandbox, Navigate in Open Worlds: Learning Physics-Grounded Abstracted Experience for Embodied Navigation [63.11032720821731]
textitSAGEは、エージェントがフォトリアリスティックなシミュレーションではなく、物理基底のセマンティック抽象化内で学習することを可能にするフレームワークである。
textitSAGEは、A-EQA上で53.21% LLM-Match Success Rateを達成することで、プランナー支援の実施ナビゲーションを大幅に改善することを示した。
論文 参考訳(メタデータ) (2026-05-11T07:34:30Z) - SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - LLMs for Text-Based Exploration and Navigation Under Partial Observability [0.8478633389228728]
未知のレイアウトでの探索と目標指向ナビゲーションは、検査、ロジスティクス、検索と救助の中心である。
我々は,大言語モデル (LLM) が部分的可観測性の下で,Emphtextのみのコントローラとして機能するかどうかを問う。
論文 参考訳(メタデータ) (2026-03-10T10:38:47Z) - Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting [18.325003967982827]
視覚言語ナビゲーション (VLN) は、広範囲に応用されたエージェントの具体化のための重要なタスクとして登場した。
マルチモーダル大言語モデル(MLLM)と簡易かつ効果的なウェイポイント予測器を統合したゼロショットフレームワークを提案する。
R2R-CE と RxR-CE の実験結果から,本手法は最先端のゼロショット性能を実現し,成功率は 41% と 36% であった。
論文 参考訳(メタデータ) (2025-09-24T19:21:39Z) - Self-Supervised Place Recognition by Refining Temporal and Featural Pseudo Labels from Panoramic Data [16.540900776820084]
本稿では,時間的近傍と学習可能な特徴近傍を用いて未知の空間近傍を探索するTF-VPRという新しいフレームワークを提案する。
本手法は,リコール率,ロバスト性,方向多様性において,自己監督ベースラインよりも優れる。
論文 参考訳(メタデータ) (2022-08-19T12:59:46Z) - Exploring Visual Context for Weakly Supervised Person Search [155.46727990750227]
人探索は、歩行者の検出と人物の再識別を共同で扱う、困難なタスクとして最近登場した。
既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に教師付き設定に従っている。
本稿では,ボックスアノテーションのみを用いた弱教師付き人物検索について実験的に考察する。
論文 参考訳(メタデータ) (2021-06-19T14:47:13Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。