論文の概要: Turn-by-Turn Indoor Navigation for the Visually Impaired
- arxiv url: http://arxiv.org/abs/2410.19954v1
- Date: Fri, 25 Oct 2024 20:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:50.941669
- Title: Turn-by-Turn Indoor Navigation for the Visually Impaired
- Title(参考訳): 視覚障害者のためのターンバイターン室内ナビゲーション
- Authors: Santosh Srinivasaiah, Sai Kumar Nekkanti, Rohith Reddy Nedhunuri,
- Abstract要約: 室内環境のナビゲーションは視覚障害者にとって重要な課題である。
本稿では,カメラを搭載したスマートフォンのみを用いた建物内部のターンバイターンナビゲーションシステムを提案する。
複雑な屋内空間を利用者に正確に案内するシステムの有効性について予備評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Navigating indoor environments presents significant challenges for visually impaired individuals due to complex layouts and the absence of GPS signals. This paper introduces a novel system that provides turn-by-turn navigation inside buildings using only a smartphone equipped with a camera, leveraging multimodal models, deep learning algorithms, and large language models (LLMs). The smartphone's camera captures real-time images of the surroundings, which are then sent to a nearby Raspberry Pi capable of running on-device LLM models, multimodal models, and deep learning algorithms to detect and recognize architectural features, signage, and obstacles. The interpreted visual data is then translated into natural language instructions by an LLM running on the Raspberry Pi, which is sent back to the user, offering intuitive and context-aware guidance via audio prompts. This solution requires minimal workload on the user's device, preventing it from being overloaded and offering compatibility with all types of devices, including those incapable of running AI models. This approach enables the client to not only run advanced models but also ensure that the training data and other information do not leave the building. Preliminary evaluations demonstrate the system's effectiveness in accurately guiding users through complex indoor spaces, highlighting its potential for widespread application
- Abstract(参考訳): 屋内環境のナビゲーションは、複雑なレイアウトやGPS信号の欠如により視覚障害者にとって大きな課題となる。
本稿では,マルチモーダルモデル,深層学習アルゴリズム,および大規模言語モデル(LLM)を活用したスマートフォンのみを用いた建物内部のターンバイターンナビゲーションシステムを提案する。
スマートフォンのカメラは、周囲のリアルタイム画像をキャプチャして、近くのRaspberry Piに送信し、デバイス上のLCMモデル、マルチモーダルモデル、ディープラーニングアルゴリズムを実行して、アーキテクチャの特徴、サイン、障害を検出して認識する。
解釈された視覚データは、Raspberry Pi上で動作するLLMによって自然言語命令に変換され、ユーザに送信され、オーディオプロンプトを介して直感的でコンテキスト対応のガイダンスを提供する。
このソリューションでは、ユーザのデバイス上の最小限のワークロードが必要であり、過負荷を防止し、AIモデルを実行できないものなど、すべてのタイプのデバイスとの互換性を提供する。
このアプローチにより、クライアントは高度なモデルを実行するだけでなく、トレーニングデータやその他の情報が建物を離れないようにもなります。
複雑な屋内空間を正確に案内するシステムの有効性を実証した予備評価
関連論文リスト
- PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - Floor extraction and door detection for visually impaired guidance [78.94595951597344]
未知の環境で障害物のない経路を見つけることは、視覚障害者や自律ロボットにとって大きなナビゲーション問題である。
コンピュータビジョンシステムに基づく新しいデバイスは、障害のある人が安全な環境で未知の環境でナビゲートすることの難しさを克服するのに役立つ。
本研究では,視覚障害者のためのナビゲーションシステムの構築につながるセンサとアルゴリズムの組み合わせを提案する。
論文 参考訳(メタデータ) (2024-01-30T14:38:43Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - On-device Training: A First Overview on Existing Systems [6.551096686706628]
リソース制約のあるデバイスにいくつかのモデルをデプロイする努力も行われている。
この研究は、デバイス上でモデルトレーニングを可能にする最先端のシステム研究を要約し、分析することを目的としている。
論文 参考訳(メタデータ) (2022-12-01T19:22:29Z) - Efficient Single-Image Depth Estimation on Mobile Devices, Mobile AI &
AIM 2022 Challenge: Report [108.88637766066759]
ディープラーニングベースの単一画像深度推定ソリューションは、IoTプラットフォームとスマートフォン上でリアルタイムのパフォーマンスを示すことができる。
このチャレンジで開発されたモデルは、AndroidやLinuxベースのモバイルデバイスとも互換性がある。
論文 参考訳(メタデータ) (2022-11-07T22:20:07Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - ViT Cane: Visual Assistant for the Visually Impaired [0.0]
本稿では,視覚変換器モデルを利用してリアルタイムに障害物を検出するViT Caneを提案する。
システム全体はPi Camera Module v2とRaspberry Pi 4Bと8GB Ramと4基のモーターで構成されています。
4つのモーターを用いた触覚入力に基づいて、障害物検出モデルは、未知の地形を視覚的に損なうのを助けるのに非常に効率的である。
論文 参考訳(メタデータ) (2021-09-26T02:30:30Z) - Fast and Accurate Single-Image Depth Estimation on Mobile Devices,
Mobile AI 2021 Challenge: Report [105.32612705754605]
そこでは、エンドツーエンドのディープラーニングベースの深度推定ソリューションを開発することが目標です。
提案したソリューションは、Raspberry Pi 4上で最大10FPSのVGA解像度深度マップを生成でき、高い忠実度を達成できる。
論文 参考訳(メタデータ) (2021-05-17T13:49:57Z) - Movement Tracking by Optical Flow Assisted Inertial Navigation [18.67291804847956]
学習に基づく光フローモデルと従来の慣性ナビゲーションを組み合わせる方法を示す。
確率的深層学習のアイデアが測定更新の堅牢性にどのように役立つかを示す。
この実用性は、iPadが取得した現実世界のデータで実証されている。
論文 参考訳(メタデータ) (2020-06-24T16:36:13Z) - Visually Impaired Aid using Convolutional Neural Networks, Transfer
Learning, and Particle Competition and Cooperation [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)、伝達学習、半教師付き学習(SSL)を用いて、視覚障害者支援を目的としたフレームワークを構築することを提案する。
計算コストが低く、従って、追加の機器に頼ることなく、現在のスマートフォンで実装することができる。
論文 参考訳(メタデータ) (2020-05-09T16:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。