論文の概要: Exploring the Use of VLMs for Navigation Assistance for People with Blindness and Low Vision
- arxiv url: http://arxiv.org/abs/2603.15624v1
- Date: Mon, 26 Jan 2026 23:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.323835
- Title: Exploring the Use of VLMs for Navigation Assistance for People with Blindness and Low Vision
- Title(参考訳): 失明・視力低下者のためのナビゲーション支援用VLMの探索
- Authors: Yu Li, Yuchen Zheng, Giles Hamilton-Fletcher, Marco Mezzavilla, Yao Wang, Sundeep Rangan, Maurizio Porfiri, Zhou Yu, John-Ross Rizzo,
- Abstract要約: 本稿では,視覚障害者のナビゲーション作業における視覚言語モデル(VLM)の有用性について検討する。
我々は,GPT-4V,GPT-4o,Gemini-1.5-Pro,Claude-3.5-Sonnetなどのクローズソースモデルを,Llava-v1.6-mistralやLlava-onevision-qwenなどのオープンソースモデルとともに評価した。
- 参考スコア(独自算出の注目度): 25.11164612463911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the potential of vision-language models (VLMs) to assist people with blindness and low vision (pBLV) in navigation tasks. We evaluate state-of-the-art closed-source models, including GPT-4V, GPT-4o, Gemini-1.5-Pro, and Claude-3.5-Sonnet, alongside open-source models, such as Llava-v1.6-mistral and Llava-onevision-qwen, to analyze their capabilities in foundational visual skills: counting ambient obstacles, relative spatial reasoning, and common-sense wayfinding-pertinent scene understanding. We further assess their performance in navigation scenarios, using pBLV-specific prompts designed to simulate real-world assistance tasks. Our findings reveal notable performance disparities between these models: GPT-4o consistently outperforms others across all tasks, particularly in spatial reasoning and scene understanding. In contrast, open-source models struggle with nuanced reasoning and adaptability in complex environments. Common challenges include difficulties in accurately counting objects in cluttered settings, biases in spatial reasoning, and a tendency to prioritize object details over spatial feedback, limiting their usability for pBLV in navigation tasks. Despite these limitations, VLMs show promise for wayfinding assistance when better aligned with human feedback and equipped with improved spatial reasoning. This research provides actionable insights into the strengths and limitations of current VLMs, guiding developers on effectively integrating VLMs into assistive technologies while addressing key limitations for enhanced usability.
- Abstract(参考訳): 本稿では,視覚障害者のナビゲーション作業における視覚言語モデル(VLM)の有用性について検討する。
GPT-4V, GPT-4o, Gemini-1.5-Pro, Claude-3.5-Sonnetなどの最先端のクローズドソースモデルとLlava-v1.6-mistral, Llava-onevision-qwenなどのオープンソースモデルを併用して, 周辺障害物の計数, 相対空間推論, 一般の視覚的シーン理解などの基礎的視覚スキルの能力を解析した。
実世界の支援タスクをシミュレートするために設計されたpBLV固有のプロンプトを用いて、ナビゲーションシナリオにおけるそれらのパフォーマンスをさらに評価する。
GPT-4oは、特に空間的推論やシーン理解において、全てのタスクにおいて、常に他のタスクよりも優れています。
対照的に、オープンソースのモデルは複雑な環境でのニュアンスな推論と適応性に苦しむ。
一般的な課題としては、乱雑な設定でオブジェクトを正確にカウントすることの難しさ、空間的推論におけるバイアス、空間的フィードバックよりもオブジェクトの詳細を優先する傾向、ナビゲーションタスクにおけるpBLVの使用性を制限することなどがある。
これらの制限にもかかわらず、VLMは人間のフィードバックに適合し、空間的推論を改善した場合、ウェイフィニング支援を約束する。
この研究は、現在のVLMの強みと限界に関する実用的な洞察を提供し、開発者がVLMを補助技術に効果的に統合し、ユーザビリティを高めるための重要な制限に対処することを導く。
関連論文リスト
- VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - A Light and Smart Wearable Platform with Multimodal Foundation Model for Enhanced Spatial Reasoning in People with Blindness and Low Vision [9.057330310306696]
盲目と低視力(pBLV)を持つ人々は、限られた視覚的手がかりのために、環境をナビゲートし、オブジェクトを見つけるのに苦労している、重大な課題に直面しています。
視覚障害者のための現在のマルチモーダル大言語(MLLM)モデルでは、これらのタスクを効果的に支援するために必要な空間推論機能が欠如している。
視覚障害者を対象とした空間拡張型多モーダル大規模言語モデルを提案する。
論文 参考訳(メタデータ) (2025-05-16T05:32:25Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.34964016971127]
iVISPARは、視覚言語モデル(VLM)がエージェントとして働く空間的推論能力を評価するために設計されたインタラクティブなベンチマークである。
このベンチマークは、ビジュアル3D、2D、テキストベースの入力モダリティをサポートし、VLMの計画と推論スキルの包括的な評価を可能にする。
その結果、VLMは3次元やテキストベースの設定に比べて2次元のタスクでは優れていたが、複雑な空間構成に苦慮し、常に人間のパフォーマンスに欠けていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。