論文の概要: WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
- arxiv url: http://arxiv.org/abs/2603.10703v1
- Date: Wed, 11 Mar 2026 12:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.940399
- Title: WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
- Title(参考訳): WalkGPT:歩行者ナビゲーションのための深度認識セグメンテーションを用いた接地型視覚言語対話
- Authors: Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu,
- Abstract要約: 我々は,新しいグラウンドドナビゲーションガイドのためのLVLMであるWalkGPTを紹介する。
ディープ・アウェア・アクセシビリティ・ガイダンスのための単一のアーキテクチャで言語推論とセグメンテーションを統合する。
我々はまた、アクセシビリティを意識した質問と深度グラウンドの回答を組み合わせた41kの歩行者ビュー画像の大規模なベンチマークであるPAVEを紹介した。
- 参考スコア(独自算出の注目度): 14.333539903382118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring accessible pedestrian navigation requires reasoning about both semantic and spatial aspects of complex urban scenes, a challenge that existing Large Vision-Language Models (LVLMs) struggle to meet. Although these models can describe visual content, their lack of explicit grounding leads to object hallucinations and unreliable depth reasoning, limiting their usefulness for accessibility guidance. We introduce WalkGPT, a pixel-grounded LVLM for the new task of Grounded Navigation Guide, unifying language reasoning and segmentation within a single architecture for depth-aware accessibility guidance. Given a pedestrian-view image and a navigation query, WalkGPT generates a conversational response with segmentation masks that delineate accessible and harmful features, along with relative depth estimation. The model incorporates a Multi-Scale Query Projector (MSQP) that shapes the final image tokens by aggregating them along text tokens across spatial hierarchies, and a Calibrated Text Projector (CTP), guided by a proposed Region Alignment Loss, that maps language embeddings into segmentation-aware representations. These components enable fine-grained grounding and depth inference without user-provided cues or anchor points, allowing the model to generate complete and realistic navigation guidance. We also introduce PAVE, a large-scale benchmark of 41k pedestrian-view images paired with accessibility-aware questions and depth-grounded answers. Experiments show that WalkGPT achieves strong grounded reasoning and segmentation performance. The source code and dataset are available on the \href{https://sites.google.com/view/walkgpt-26/home}{project website}.
- Abstract(参考訳): アクセス可能な歩行者ナビゲーションを確保するには、複雑な都市景観のセマンティックな側面と空間的な側面の両方を推論する必要がある。
これらのモデルは、視覚的内容を記述することができるが、その明示的な根拠の欠如は、対象の幻覚と信頼できない深度推論につながり、アクセシビリティガイダンスの有用性を制限する。
深度対応アクセシビリティガイダンスのための1つのアーキテクチャに言語推論とセグメンテーションを統一した,新しいタスクであるグラウンドドナビゲーションガイドのためのピクセルグラウンドLVLMであるWalkGPTを紹介する。
歩行者ビューの画像とナビゲーションクエリが与えられた後、WalkGPTは、相対的な深さ推定とともに、アクセス可能で有害な特徴を記述したセグメンテーションマスクによる会話応答を生成する。
このモデルはマルチスケールクエリプロジェクタ (Multi-Scale Query Projector, MSQP) と、言語埋め込みをセグメンテーション対応の表現にマッピングする提案されたリージョンアライメントロス (Regional Alignment Loss) によってガイドされたCTP (Calibrated Text Projector) を組み込んだ。
これらのコンポーネントは、ユーザが提供するキューやアンカーポイントを使わずに、きめ細かいグラウンドと深さの推論を可能にし、モデルが完全な現実的なナビゲーションガイダンスを生成することができる。
我々はまた、アクセシビリティを意識した質問と深度グラウンドの回答を組み合わせた41kの歩行者ビュー画像の大規模ベンチマークであるPAVEを紹介した。
実験により、WalkGPTは強い基礎的推論とセグメンテーション性能を達成することが示された。
ソースコードとデータセットは \href{https://sites.google.com/view/walkgpt-26/home}{project website} で公開されている。
関連論文リスト
- Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - DEVICE: Depth and Visual Concepts Aware Transformer for OCR-based Image Captioning [12.786190263272859]
OCRをベースとした画像キャプションは重要だが未探索の課題である。
近年の研究は進歩を奨励しているが、シーンの全体的な理解の欠如に悩まされている。
我々は,OCRに基づく画像カプティノンのための深度・視覚認識概念変換器(DEVICE)を提案する。
論文 参考訳(メタデータ) (2023-02-03T04:31:13Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - Polyline Based Generative Navigable Space Segmentation for Autonomous
Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。
提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-29T19:50:48Z) - Pathdreamer: A World Model for Indoor Navigation [62.78410447776939]
本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。
過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。
不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
論文 参考訳(メタデータ) (2021-05-18T18:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。