論文の概要: Artificial Eye for the Blind
- arxiv url: http://arxiv.org/abs/2308.00801v1
- Date: Fri, 7 Jul 2023 10:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-06 11:03:45.302300
- Title: Artificial Eye for the Blind
- Title(参考訳): 盲目の人工眼
- Authors: Abhinav Benagi, Dhanyatha Narayan, Charith Rage, A Sushmitha
- Abstract要約: われわれのArtificial EyeモデルのメインのバックボーンはRaspberry pi3で、Webカメラに接続されている。
また、オブジェクト検出、光学文字認識、Googleテキストから音声への変換、Mycroft音声アシストモデルといったソフトウェアモデルもすべて実行しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main backbone of our Artificial Eye model is the Raspberry pi3 which is
connected to the webcam ,ultrasonic proximity sensor, speaker and we also run
all our software models i.e object detection, Optical Character recognition,
google text to speech conversion and the Mycroft voice assistance model. At
first the ultrasonic proximity sensor will be measuring the distance between
itself and any obstacle in front of it .When the Proximity sensor detects any
obstacle in front within its specified range, the blind person will hear an
audio prompt about an obstacle in his way at a certain distance. At this time
the Webcam will capture an image in front of it and the Object detection model
and the Optical Character Recognition model will begin to run on the Raspberry
pi. The imat of the blind person. The text and the object detected are conveyed
to the blind pege captured is first sent through the Tesseract OCR module to
detect any texts in the image and then through the Object detection model to
detect the objects in fronrson by converting the texts to speech by using the
gTTS module. Along with the above mentioned process going on there will be an
active MYCROFT voice assistant model which can be used to interact with the
blind person. The blind person can ask about the weather , daily news , any
information on the internet ,etc
- Abstract(参考訳): 私たちの人工眼モデルの主なバックボーンはraspberry pi3で、webカメラ、ウルトラソニック近接センサー、スピーカーに接続しています。また、物体検出、光文字認識、google text to speech conversion、mycroft voice assistance modelといったソフトウェアモデルもすべて実行しています。
まず、超音波近接センサーは、自分自身と目の前の障害物の間の距離を測定する。
Proximityセンサーが特定の範囲内で前方の障害物を検知すると、盲人は一定の距離で障害物に関する音声のプロンプトを耳にします。
この時点でwebカメラは、その前の画像をキャプチャし、オブジェクト検出モデルと光学式文字認識モデルがraspberry pi上で動作し始める。
盲目の人のイマト。
検出されたテキストとオブジェクトは、まず、画像中の任意のテキストを検出するためにTesseract OCRモジュールを介して送信され、その後、オブジェクト検出モデルを介して、gTTSモジュールを使用してテキストを音声に変換することにより、fronrson内のオブジェクトを検出する。
上記のプロセスとともに、盲人との対話に使用できるアクティブなMYCROFT音声アシスタントモデルが提供される。
盲目の人は天気や日報、インターネット上のあらゆる情報、etcについて尋ねることができる。
関連論文リスト
- ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - Object Recognition System on a Tactile Device for Visually Impaired [1.2891210250935146]
このデバイスは、視覚情報を聴覚フィードバックに変換し、ユーザが自分の環境を、感覚的なニーズに合った形で理解できるようにする。
装置が特定の位置にタッチされると、シーンに存在する物体の識別を視覚障害者に伝える音声信号を提供する。
論文 参考訳(メタデータ) (2023-07-05T11:37:17Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z) - Detecting Human-Object Contact in Images [75.35017308643471]
人間は常にオブジェクトに接触し、タスクを動かします。
画像から身体とシーンの接触を検出する堅牢な方法はない。
我々は、画像のための人間と物体の接触のデータセットを新たに構築する。
論文 参考訳(メタデータ) (2023-03-06T18:56:26Z) - Detect Only What You Specify : Object Detection with Linguistic Target [0.0]
本稿では,最近提案されたTransformer-based Detectorに基づくターゲット検出のためのLanguage-Targeted Detector (LTD)を提案する。
LTDはエンコーダ・デコーダアーキテクチャであり,条件付きデコーダにより,テキスト入力を言語文脈として,符号化された画像について推論することができる。
論文 参考訳(メタデータ) (2022-11-18T07:28:47Z) - SANIP: Shopping Assistant and Navigation for the visually impaired [0.0]
提案モデルは3つのピソンモデル、すなわちカスタムオブジェクト検出、テキスト検出、バーコード検出から構成される。
手持ちオブジェクトのオブジェクト検出のために、Parle-G、Tide、Laysといったデイリーグッズを含む独自のカスタムデータセットを作成しました。
提案する他の2つのモデルでは、検索されたテキストとバーコード情報はテキストから音声に変換され、盲人に送信される。
論文 参考訳(メタデータ) (2022-09-08T05:35:03Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z) - Deep Sensory Substitution: Noninvasively Enabling Biological Neural
Networks to Receive Input from Artificial Neural Networks [5.478764356647437]
本研究は,視覚情報を知覚音声領域に音化するために,機械学習機能埋め込みを活用する新しい手法について述べる。
次に、生成逆数ネットワーク(GAN)を用いて、特徴ベクトルのこの距離空間からターゲットオーディオデータセットで定義された距離保存マップを求める。
人間の被験者によるテストでは、ユーザーは顔の音声音化を正確に分類することができた。
論文 参考訳(メタデータ) (2020-05-27T11:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。