論文の概要: AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.20059v1
- Date: Sat, 28 Dec 2024 07:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:37.715078
- Title: AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models
- Title(参考訳): 視覚障害者のためのAIによるウェアラブル視覚支援システム:大規模視覚言語モデルを用いたリアルタイム物体認識と文脈理解の統合
- Authors: Mirza Samad Ahmed Baig, Syeda Anshrah Gillani, Shahid Munir Shah, Mahmoud Aljawarneh, Abdul Akbar Khan, Muhammad Hamzah Siddiqui,
- Abstract要約: 本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。
大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Visual impairment affects the ability of people to live a life like normal people. Such people face challenges in performing activities of daily living, such as reading, writing, traveling and participating in social gatherings. Many traditional approaches are available to help visually impaired people; however, these are limited in obtaining contextually rich environmental information necessary for independent living. In order to overcome this limitation, this paper introduces a novel wearable vision assistance system that has a hat-mounted camera connected to a Raspberry Pi 4 Model B (8GB RAM) with artificial intelligence (AI) technology to deliver real-time feedback to a user through a sound beep mechanism. The key features of this system include a user-friendly procedure for the recognition of new people or objects through a one-click process that allows users to add data on new individuals and objects for later detection, enhancing the accuracy of the recognition over time. The system provides detailed descriptions of objects in the user's environment using a large vision language model (LVLM). In addition, it incorporates a distance sensor that activates a beeping sound using a buzzer as soon as the user is about to collide with an object, helping to ensure safety while navigating their environment. A comprehensive evaluation is carried out to evaluate the proposed AI-based solution against traditional support techniques. Comparative analysis shows that the proposed solution with its innovative combination of hardware and AI (including LVLMs with IoT), is a significant advancement in assistive technology that aims to solve the major issues faced by the community of visually impaired people
- Abstract(参考訳): 視覚障害は、普通の人のように生きていく能力に影響を与える。
このような人々は、読書、執筆、旅行、社会集会への参加など、日常生活活動の課題に直面している。
多くの伝統的なアプローチは視覚障害者を助けるために利用できるが、これらは独立した生活に必要な文脈的に豊かな環境情報を得るのに限られている。
この制限を克服するために,Raspberry Pi 4 Model B (8GB RAM) と人工知能(AI)技術とを接続し,音のビープ機構を通じてユーザにリアルタイムフィードバックを提供する,新しいウェアラブル・ビジョン・アシストシステムを提案する。
このシステムの主な特徴は、ワンクリックで新しい人やオブジェクトを認識するためのユーザーフレンドリーな手順で、ユーザーは新しい個人やオブジェクトのデータを後から検出し、時間とともに認識の精度を高めることができる。
このシステムは,大規模視覚言語モデル(LVLM)を用いて,ユーザの環境におけるオブジェクトの詳細な記述を提供する。
さらに、ユーザが物体と衝突しようとするとすぐにブザーを使ってビープ音を鳴らす距離センサを内蔵し、環境をナビゲートしながら安全性を確保する。
従来のサポート手法に対して提案したAIベースのソリューションを評価するため,包括的評価を行った。
比較分析によると、ハードウェアとAI(LVLMとIoTを含む)の革新的な組み合わせによる提案されたソリューションは、視覚障害者のコミュニティが直面する大きな問題を解決することを目的とした、支援技術の大幅な進歩である。
関連論文リスト
- AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual
AI for Smart Eyewear [30.71112461604336]
本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。
GazeGPTは、視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。
我々は、この視線移入機構が代替手段よりも高速で高精度なポインティング機構であることが示している。
論文 参考訳(メタデータ) (2024-01-30T18:02:44Z) - Floor extraction and door detection for visually impaired guidance [78.94595951597344]
未知の環境で障害物のない経路を見つけることは、視覚障害者や自律ロボットにとって大きなナビゲーション問題である。
コンピュータビジョンシステムに基づく新しいデバイスは、障害のある人が安全な環境で未知の環境でナビゲートすることの難しさを克服するのに役立つ。
本研究では,視覚障害者のためのナビゲーションシステムの構築につながるセンサとアルゴリズムの組み合わせを提案する。
論文 参考訳(メタデータ) (2024-01-30T14:38:43Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - DRISHTI: Visual Navigation Assistant for Visually Impaired [0.0]
盲目で視覚障害者(BVI)は、自分の環境に関する情報を手動で支援する必要があるため、課題に直面します。
この研究で我々は、安価で高性能なアイウェアアシストデバイスDRISHTIの開発に向けて、最初の一歩を踏み出した。
論文 参考訳(メタデータ) (2023-03-13T20:10:44Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - VisBuddy -- A Smart Wearable Assistant for the Visually Challenged [0.0]
VisBuddyは音声ベースのアシスタントで、ユーザーは音声コマンドで特定のタスクを実行することができる。
ユーザの周囲を記述するための画像キャプション技術、ユーザの視点でテキストを読み取るための光学文字認識(OCR)、部屋内のオブジェクトを検索して見つけるためのオブジェクト検出、最新のニュースを提供するためのWebスクレイピングを使用する。
論文 参考訳(メタデータ) (2021-08-17T17:15:23Z) - AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文 参考訳(メタデータ) (2020-10-22T17:20:38Z) - A Deep Learning based Wearable Healthcare IoT Device for AI-enabled
Hearing Assistance Automation [6.283190933140046]
本研究は、聴覚障害や聴覚障害に苦しむ人々を支援するAI対応IoT(Internet of Things)デバイスを提案する。
Googleのオンライン音声認識サービスを活用して、受信した会話をテキストに変換し、眼鏡に取り付けられたマイクロディスプレイに展開し、会話内容を聴覚障害者に表示するサーバアプリケーションを作成する。
論文 参考訳(メタデータ) (2020-05-16T19:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。