論文の概要: Urban Risk-Aware Navigation via VQA-Based Event Maps for People with Low Vision
- arxiv url: http://arxiv.org/abs/2605.11782v1
- Date: Tue, 12 May 2026 08:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.72921
- Title: Urban Risk-Aware Navigation via VQA-Based Event Maps for People with Low Vision
- Title(参考訳): 低視力者のためのVQAに基づくイベントマップによる都市リスク認識ナビゲーション
- Authors: Antoni Valls, Jordi Sanchez-Riera,
- Abstract要約: 視覚障害は世界中の何億人もの人々に影響を与え、都市環境の安全と独立性を著しく制限する。
本稿では,視覚言語モデル(VLM)を利用した視覚的質問応答に基づくイベントマップフレームワークを提案する。
我々は、VQAアーキテクチャであるViLT、LLaVA、InstructBLIP、Qwen-VLの4つをベンチマークし、生成型マルチモーダル大言語モデル(MLLM)が、分類に基づくアプローチよりも大幅に優れていることを発見した。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual impairment affects hundreds of millions of people worldwide, severely limiting their ability to navigate urban environments safely and independently. While wearable assistive devices offer a promising platform for real-time hazard detection, existing approaches rely on task-specific vision pipelines that lack flexibility and generalizability. In this work, we propose an event map framework based on visual question answering that leverages Vision-Language Models (VLMs) for pedestrian scene description and hazard identification across diverse real-world environments, using a three-level hierarchical query structure to enable fine-grained scene understanding without task-specific retraining. Model responses are aggregated into a weighted risk scoring system that maps street segments into four discrete safety categories, producing navigable risk-aware event maps for route planning. To support evaluation and future research, we introduce a geographically diverse dataset spanning 20 cities across six continents, comprising over 800 annotated images and 18,000 answered questions. We benchmark four VQA architectures -ViLT, LLaVA, InstructBLIP, and Qwen-VL- and find that generative Multimodal Large Language Models (MLLMs) substantially outperform classification-based approaches, with Qwen-VL achieving the best overall balance of precision and recall. These results demonstrate the viability of MLLMs as a flexible and generalizable foundation for assistive navigation systems for visually impaired people.
- Abstract(参考訳): 視覚障害は世界中の何億人もの人々に影響を与え、都市環境の安全と独立性を著しく制限する。
ウェアラブルアシストデバイスは、リアルタイムのハザード検出のための有望なプラットフォームを提供するが、既存のアプローチは、柔軟性と一般化性に欠けるタスク固有のビジョンパイプラインに依存している。
本研究では,視覚的質問応答に基づくイベントマップフレームワークを提案する。このフレームワークは,3階層の階層的クエリ構造を用いて,視覚空間モデル(VLM)を用いて,視覚的なシーン記述と危険識別を行う。
モデル応答は重み付けされたリスクスコアシステムに集約され、道路セグメントを4つの個別の安全カテゴリにマップし、経路計画のためのナビゲート可能なリスク対応イベントマップを生成する。
評価と今後の研究を支援するため、6大陸にまたがる20都市にまたがる地理的に多様なデータセットを導入し、800以上の注釈付き画像と18,000の回答付き質問からなる。
我々は、VQAアーキテクチャのViLT、LLaVA、InstructBLIP、Qwen-VLの4つをベンチマークし、生成型マルチモーダル大言語モデル(MLLM)が、分類に基づくアプローチを大幅に上回っており、Qwen-VLは精度とリコールの全体的なバランスを最高のものにしていることを示す。
これらの結果は、視覚障害者のための補助ナビゲーションシステムのためのフレキシブルで一般化可能な基盤としてMLLMが実現可能であることを示す。
関連論文リスト
- mmWalk: Towards Multi-modal Multi-view Walking Assistance [44.184803877778556]
mmWalkは、マルチビューセンサーとアクセシビリティ指向の機能を統合して、屋外安全なナビゲーションを可能にするシミュレーションされたマルチモーダルデータセットである。
本データセットは,120個のシナリオ分類された歩行軌跡と62kの同期フレームから構成される。
VQAベンチマークであるmmWalkVQAを生成し、9つのカテゴリに69万以上の視覚的質問応答三つ子を配置し、安全かつ情報的な歩行支援を行う。
論文 参考訳(メタデータ) (2025-10-13T15:25:52Z) - SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding [13.157191393518595]
MLLM(Multimodal large language model)は、様々な視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,Pixel-Level Understanding と temporal Grounding を併用して,交通事故の包括的解析を可能にする新しいフレームワークであるSafePLUGを提案する。
多様な事故シナリオに着目したマルチモーダルな質問応答ペアを含む新しいデータセットを,詳細なピクセルレベルのアノテーションと時間的イベント境界でキュレートする。
論文 参考訳(メタデータ) (2025-08-09T00:25:24Z) - Learning to Drive Anywhere with Model-Based Reannotation [49.80796496905606]
ロボットの視覚ナビゲーションポリシーを一般化するためのフレームワークを開発する。
クラウドソースの遠隔操作データや、ラベルなしのYouTubeビデオなど、受動的に収集されたデータを活用します。
このデータはLogoNavに蒸留される。LogoNavは、視覚的目標やGPSのウェイポイントに照準を合わせられた長い水平航法ポリシーだ。
論文 参考訳(メタデータ) (2025-05-08T18:43:39Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes [76.24687327731031]
まず,DivSceneを導入することにより,オープン語彙オブジェクトナビゲーションの課題について検討する。
私たちのデータセットは、既存のデータセットよりもターゲットオブジェクトやシーンタイプがはるかに多様です。
我々はLVLMを微調整し、CoTの説明で次の動作を予測する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model [77.86593720792986]
本稿では,SPA-VL と呼ばれる視覚言語モデルのための安全優先アライメントデータセットを提案する。
SPA-VLは6つの有害ドメイン、13のカテゴリ、53のサブカテゴリをカバーし、クエクション、画像、選択された応答、拒否された応答)の4倍体の100,788のサンプルを含んでいる。
実験により、SPA-VLデータセット上のアライメント技術でトレーニングされたモデルは、コア機能を維持しながら、無害性と有用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-17T18:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。