論文の概要: NaviSense: A Multimodal Assistive Mobile application for Object Retrieval by Persons with Visual Impairment
- arxiv url: http://arxiv.org/abs/2509.18672v1
- Date: Tue, 23 Sep 2025 05:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.719216
- Title: NaviSense: A Multimodal Assistive Mobile application for Object Retrieval by Persons with Visual Impairment
- Title(参考訳): NaviSense:視覚障害者によるオブジェクト検索のためのマルチモーダル補助モバイルアプリケーション
- Authors: Ajay Narayanan Sridhar, Fuli Qiao, Nelson Daniel Troncoso Aldas, Yanpei Shi, Mehrdad Mahdavi, Laurent Itti, Vijaykrishnan Narayanan,
- Abstract要約: NaviSenseは、対話型AI、視覚言語モデル、拡張現実(AR)、LiDARを組み合わせたモバイル支援システムである。
ユーザは自然言語でオブジェクトを指定し、目標に向かって移動するための連続的な空間フィードバックを受け取る。
NaviSenseはオブジェクトの検索時間を著しく短縮し、既存のツールよりも好まれた。
- 参考スコア(独自算出の注目度): 21.405966774051326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People with visual impairments often face significant challenges in locating and retrieving objects in their surroundings. Existing assistive technologies present a trade-off: systems that offer precise guidance typically require pre-scanning or support only fixed object categories, while those with open-world object recognition lack spatial feedback for reaching the object. To address this gap, we introduce 'NaviSense', a mobile assistive system that combines conversational AI, vision-language models, augmented reality (AR), and LiDAR to support open-world object detection with real-time audio-haptic guidance. Users specify objects via natural language and receive continuous spatial feedback to navigate toward the target without needing prior setup. Designed with insights from a formative study and evaluated with 12 blind and low-vision participants, NaviSense significantly reduced object retrieval time and was preferred over existing tools, demonstrating the value of integrating open-world perception with precise, accessible guidance.
- Abstract(参考訳): 視覚障害を持つ人々は、周囲の物体を発見・回収する上で、しばしば重大な課題に直面します。
既存の補助技術にはトレードオフがある: 正確なガイダンスを提供するシステムは、通常、固定オブジェクトカテゴリのみをスキャンまたはサポートする必要があるが、オープンワールドオブジェクト認識を持つシステムは、オブジェクトに到達するための空間的なフィードバックを欠いている。
このギャップに対処するために,対話型AI,視覚言語モデル,拡張現実(AR)とLiDARを組み合わせたモバイル支援システムであるNaviSenseを導入する。
ユーザは自然言語でオブジェクトを指定し、設定を必要とせずに目標に向かって移動するための連続的な空間フィードバックを受け取る。
NaviSenseは、形式的な研究から洞察を得て、12人の盲目と低視野の参加者で評価され、オブジェクトの検索時間を著しく短縮し、既存のツールよりも好まれ、オープンワールドの知覚を正確かつアクセス可能なガイダンスで統合する価値を実証した。
関連論文リスト
- MR.NAVI: Mixed-Reality Navigation Assistant for the Visually Impaired [42.45301319345154]
本稿では,視覚障害者の空間認識を高める複合現実感システムであるMR. NAVIを提案する。
本システムでは,物体検出と深度推定のためのコンピュータビジョンアルゴリズムと自然言語処理を組み合わせることで,文脈的シーン記述を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:02:56Z) - AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。
大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文 参考訳(メタデータ) (2024-12-28T07:26:39Z) - Interacted Object Grounding in Spatio-Temporal Human-Object Interactions [70.8859442754261]
我々は、新しいオープンワールドベンチマーク: Grounding Interacted Objects (GIO)を導入する。
オブジェクトの接地作業は視覚システムが相互作用するオブジェクトを発見することを期待するものである。
多様なビデオから対話オブジェクトを検出するための4D質問応答フレームワーク(4D-QA)を提案する。
論文 参考訳(メタデータ) (2024-12-27T09:08:46Z) - ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People [42.050924675417654]
視覚障害者による対話型オブジェクト検索のためのオープン語彙ウェアラブルシステムであるObjectFinderを提案する。
ObjectFinderでは、フレキシブルなワードでターゲットオブジェクトをクエリできる。
距離や方向を含む、エゴセントリックなローカライゼーション情報をリアルタイムで提供する。
論文 参考訳(メタデータ) (2024-12-04T08:38:45Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - Detect and Approach: Close-Range Navigation Support for People with
Blindness and Low Vision [13.478275180547925]
視力と視力の低い人(pBLV)は、最終目的地の特定や、不慣れな環境で特定の対象を狙う際に重大な課題を経験する。
本研究では,ユーザの関心対象物へのアプローチを,不慣れな環境下で効果的かつ効率的に行うためのリアルタイムガイダンスを提供する,新しいウェアラブルナビゲーションソリューションを開発した。
論文 参考訳(メタデータ) (2022-08-17T18:38:20Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。