論文の概要: A Light and Smart Wearable Platform with Multimodal Foundation Model for Enhanced Spatial Reasoning in People with Blindness and Low Vision
- arxiv url: http://arxiv.org/abs/2505.10875v1
- Date: Fri, 16 May 2025 05:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.169142
- Title: A Light and Smart Wearable Platform with Multimodal Foundation Model for Enhanced Spatial Reasoning in People with Blindness and Low Vision
- Title(参考訳): 視覚障害者の空間共振強化のためのマルチモーダル基礎モデルを用いた軽量・スマートウェアラブルプラットフォーム
- Authors: Alexey Magay, Dhurba Tripathi, Yu Hao, Yi Fang,
- Abstract要約: 盲目と低視力(pBLV)を持つ人々は、限られた視覚的手がかりのために、環境をナビゲートし、オブジェクトを見つけるのに苦労している、重大な課題に直面しています。
視覚障害者のための現在のマルチモーダル大言語(MLLM)モデルでは、これらのタスクを効果的に支援するために必要な空間推論機能が欠如している。
視覚障害者を対象とした空間拡張型多モーダル大規模言語モデルを提案する。
- 参考スコア(独自算出の注目度): 9.057330310306696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People with blindness and low vision (pBLV) face significant challenges, struggling to navigate environments and locate objects due to limited visual cues. Spatial reasoning is crucial for these individuals, as it enables them to understand and interpret the spatial relationships in their surroundings, enhancing their ability to navigate and interact more safely and independently. Current multi-modal large language (MLLM) models for low vision people lack the spatial reasoning capabilities needed to effectively assist in these tasks. Moreover, there is a notable absence of lightweight, easy-to-use systems that allow pBLV to effectively perceive and interact with their surrounding environment. In this paper, we propose a novel spatial enhanced multi-modal large language model based approach for visually impaired individuals. By fine-tuning the MLLM to incorporate spatial reasoning capabilities, our method significantly improves the understanding of environmental context, which is critical for navigation and object recognition. The innovation extends to a hardware component, designed as an attachment for glasses, ensuring increased accessibility and ease of use. This integration leverages advanced VLMs to interpret visual data and provide real-time, spatially aware feedback to the user. Our approach aims to bridge the gap between advanced machine learning models and practical, user-friendly assistive devices, offering a robust solution for visually impaired users to navigate their surroundings more effectively and independently. The paper includes an in-depth evaluation using the VizWiz dataset, demonstrating substantial improvements in accuracy and user experience. Additionally, we design a comprehensive dataset to evaluate our method's effectiveness in realworld situations, demonstrating substantial improvements in accuracy and user experience.
- Abstract(参考訳): 盲目と低視力(pBLV)を持つ人々は、限られた視覚的手がかりのために、環境をナビゲートし、オブジェクトを見つけるのに苦労している、重大な課題に直面しています。
空間的推論は、周囲の空間的関係を理解し、解釈し、より安全かつ独立に行動する能力を高めるため、これらの個人にとって不可欠である。
視覚障害者のための現在のマルチモーダル大言語(MLLM)モデルでは、これらのタスクを効果的に支援するために必要な空間推論機能が欠如している。
さらに、pBLVが周囲の環境を効果的に知覚し、相互作用できる軽量で使いやすいシステムがないことも注目に値する。
本稿では,視覚障害者を対象とした空間拡張型多モーダル大規模言語モデルを提案する。
MLLMを微調整して空間推論機能を取り入れることで,ナビゲーションや物体認識において重要な環境コンテキストの理解を大幅に改善する。
このイノベーションはハードウェアコンポーネントにまで拡張され、メガネのアタッチメントとして設計され、アクセシビリティと使いやすさの向上が保証される。
この統合は、高度なVLMを活用して視覚データを解釈し、リアルタイムで空間的に認識されたフィードバックをユーザに提供します。
われわれのアプローチは、高度な機械学習モデルと実用的でユーザフレンドリな補助デバイスとのギャップを埋めることを目的としており、視覚障害者が周囲をより効果的かつ独立的にナビゲートするための堅牢なソリューションを提供する。
本稿では,VizWizデータセットを用いた詳細な評価を行い,精度とユーザエクスペリエンスを大幅に向上させた。
さらに,本手法の有効性を現実の状況で評価するための包括的データセットを設計し,精度とユーザエクスペリエンスの大幅な向上を実証する。
関連論文リスト
- VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion [5.6565850326929485]
本稿では、視覚言語モデルを用いて、注意喚起手段を提供することでトレーニングを強化する新しいフレームワークを提案する。
本手法は,テキスト表現をBird's-Eye-View (BEV) 機能に統合し,意味的管理を行う。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-25T10:02:12Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.381263829108405]
VLM(Vision-Language Models)は、空間的推論と視覚的アライメントに苦しむことで知られている。
エージェントとして機能するVLMの空間的推論能力を評価するために設計された,インタラクティブなマルチモーダルベンチマークであるiVISPARを紹介する。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。
大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文 参考訳(メタデータ) (2024-12-28T07:26:39Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Small Object Detection for Indoor Assistance to the Blind using YOLO NAS Small and Super Gradients [0.0]
本稿では,小物体検出の課題に対処して,視覚障害者に対する屋内支援のための新しいアプローチを提案する。
軽量で効率的なオブジェクト検出モデルであるYOLO NAS Smallアーキテクチャを,Super Gradientsトレーニングフレームワークを用いて最適化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-28T05:38:20Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - MISAR: A Multimodal Instructional System with Augmented Reality [38.79160527414268]
Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
本研究では,大規模言語モデル(LLM)を用いた視覚・聴覚・文脈の類似化手法を提案する。
論文 参考訳(メタデータ) (2023-10-18T04:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。