Fugu-MT 論文翻訳(概要): VisBuddy -- A Smart Wearable Assistant for the Visually Challenged

論文の概要: VisBuddy -- A Smart Wearable Assistant for the Visually Challenged

arxiv url: http://arxiv.org/abs/2108.07761v1
Date: Tue, 17 Aug 2021 17:15:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-18 15:33:47.800776
Title: VisBuddy -- A Smart Wearable Assistant for the Visually Challenged
Title（参考訳）: VisBuddy - 視覚障害者のためのスマートウェアラブルアシスタント
Authors: Ishwarya Sivakumar, Nishaali Meenakshisundaram, Ishwarya Ramesh, Shiloah Elizabeth D, Sunil Retmin Raj C
Abstract要約: VisBuddyは音声ベースのアシスタントで、ユーザーは音声コマンドで特定のタスクを実行することができる。ユーザの周囲を記述するための画像キャプション技術、ユーザの視点でテキストを読み取るための光学文字認識(OCR)、部屋内のオブジェクトを検索して見つけるためのオブジェクト検出、最新のニュースを提供するためのWebスクレイピングを使用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision plays a crucial role to comprehend the world around us as more than 85% of the external information is obtained through the vision system. It largely influences our mobility, cognition, information access, and interaction with the environment as well as with other people. Blindness prevents a person from gaining knowledge of the surrounding environment and makes unassisted navigation, object recognition, obstacle avoidance, and reading tasks major challenges. Many existing systems are often limited by cost and complexity. To help the visually challenged overcome these difficulties faced in everyday life, we propose the idea of VisBuddy, a smart assistant which will help the visually challenged with their day-to-day activities. VisBuddy is a voice-based assistant, where the user can give voice commands to perform specific tasks. VisBuddy uses the techniques of image captioning for describing the user's surroundings, optical character recognition (OCR) for reading the text in the user's view, object detection to search and find the objects in a room and web scraping to give the user the latest news. VisBuddy has been built by combining the concepts from Deep Learning and the Internet of Things. Thus, VisBuddy serves as a cost-efficient, powerful and all-in-one assistant for the visually challenged by helping them with their day-to-day activities.
Abstract（参考訳）: 視覚は、視覚システムを通じて外部情報の85%以上を得るため、私たちの周りの世界を理解するための重要な役割を果たす。それは、私たちのモビリティ、認知、情報アクセス、環境と他の人々との相互作用に大きく影響します。盲目は周囲の環境を知るのを妨げ、ナビゲーション、物体認識、障害物回避、読書といった大きな課題を未支援にする。既存のシステムの多くは、コストと複雑さによって制限されることが多い。視覚障害者が日々の生活で直面するこれらの困難を克服するのを助けるために、視覚障害者が日々の行動に挑戦するのに役立つスマートアシスタントVisBuddyを提案する。 VisBuddyは音声ベースのアシスタントで、ユーザーは音声コマンドで特定のタスクを実行することができる。 VisBuddyは、ユーザの周囲を描写するための画像キャプション技術、ユーザのビューでテキストを読むための光学文字認識(OCR)、部屋にあるオブジェクトを検索して見つけるためのオブジェクト検出、最新のニュースを提供するためのWebスクレイピングなどを使用している。 VisBuddyはDeep LearningとInternet of Thingsのコンセプトを組み合わせて作られている。 VisBuddyはコスト効率が高く、パワフルで、視覚障害者のためのオールインワンのアシスタントとして、日々の活動を支援する。

関連論文リスト

Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired [10.648018999640758]
視力障害8例(BVI)を主訴に来院した。この結果から,現在のライブビデオAIは静的なシーンのガイダンスや回答を効果的に提供するが,ダイナミックな状況において必要不可欠なライブ記述の提供には不十分であることが示唆された。我々は、実世界の利用に付加的なセンシング機能を導入することを含む、補助的なビデオAIエージェントへの影響について論じる。
論文参考訳（メタデータ） (2025-08-05T16:59:02Z)
Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。 PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文参考訳（メタデータ） (2025-05-18T07:33:31Z)
A Light and Smart Wearable Platform with Multimodal Foundation Model for Enhanced Spatial Reasoning in People with Blindness and Low Vision [9.057330310306696]
盲目と低視力(pBLV)を持つ人々は、限られた視覚的手がかりのために、環境をナビゲートし、オブジェクトを見つけるのに苦労している、重大な課題に直面しています。視覚障害者のための現在のマルチモーダル大言語(MLLM)モデルでは、これらのタスクを効果的に支援するために必要な空間推論機能が欠如している。視覚障害者を対象とした空間拡張型多モーダル大規模言語モデルを提案する。
論文参考訳（メタデータ） (2025-05-16T05:32:25Z)
"I Can See Forever!": Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments [17.702424914454415]
視覚障害者は現在、大規模に活動しており、日々の活動は彼らにとって重大な課題となっている。多くの研究は、視覚障害者を支援するために、大きな言語と視覚言語モデルを用いており、静的コンテンツに重点を置いており、リアルタイムの認識のニーズを満たすことができない。より効果的な知的支援を提供するためには、高度な視覚理解技術を組み込むことが不可欠である。
論文参考訳（メタデータ） (2025-05-07T15:03:16Z)
AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文参考訳（メタデータ） (2024-12-28T07:26:39Z)
TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model [2.2469442203227863]
組込みRGBカメラとLarge Language Model(LLM)を用いたスマートグラスを用いたインテリジェントリーディングアシスタントを提案する。眼鏡をかけている人の自我中心から見た映像を処理し、オブジェクト検出と光学文字認識方法を用いてテキスト情報をローカライズする。 LLMはデータを処理し、ユーザはテキストと対話し、所定のクエリに応答し、修正レンズの機能を拡張する。
論文参考訳（メタデータ） (2024-04-14T13:39:02Z)
Improve accessibility for Low Vision and Blind people using Machine Learning and Computer Vision [0.0]
このプロジェクトでは、視覚障害者のアクセシビリティ向上に機械学習とコンピュータビジョンを活用する方法について検討する。このプロジェクトでは、視覚障害者が音声や触覚のフィードバックを受信することで、空間内でのオリエントを支援するモバイルアプリケーションの構築に集中する。
論文参考訳（メタデータ） (2024-03-24T21:19:17Z)
Floor extraction and door detection for visually impaired guidance [78.94595951597344]
未知の環境で障害物のない経路を見つけることは、視覚障害者や自律ロボットにとって大きなナビゲーション問題である。コンピュータビジョンシステムに基づく新しいデバイスは、障害のある人が安全な環境で未知の環境でナビゲートすることの難しさを克服するのに役立つ。本研究では,視覚障害者のためのナビゲーションシステムの構築につながるセンサとアルゴリズムの組み合わせを提案する。
論文参考訳（メタデータ） (2024-01-30T14:38:43Z)
Newvision: application for helping blind people using deep learning [0.0]
われわれは視覚障害者が周囲をナビゲートするのに役立つプロプライエタリなヘッドギアを開発している。ヘッドギアにはコンピュータービジョン、距離推定、超音波センサー、音声認識、音声アシスタントが組み込まれている。ユーザは ''What is it'' などの音声コマンドでヘッドギアと対話してオブジェクトを識別できる。
論文参考訳（メタデータ） (2023-11-05T06:23:10Z)
MagicEye: An Intelligent Wearable Towards Independent Living of Visually Impaired [0.17499351967216337]
視覚障害は、仕事、ナビゲート、独立維持の能力を著しく損なう可能性がある。 MagicEyeは、視覚障害者を支援するために設計された最先端のインテリジェントウェアラブルデバイスだ。合計35のクラスで、MagicEyeが採用しているニューラルネットワークは、オブジェクト検出における高いレベルの効率と精度を達成するために特別に設計されている。
論文参考訳（メタデータ） (2023-03-24T08:59:35Z)
Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文参考訳（メタデータ） (2022-05-30T04:52:58Z)
ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文参考訳（メタデータ） (2022-02-05T02:01:19Z)
Augmented reality navigation system for visual prosthesis [67.09251544230744]
反応ナビゲーションと経路計画のソフトウェアを組み込んだ視覚補綴用拡張現実ナビゲーションシステムを提案する。対象を地図上に配置し、対象の軌道を計画し、対象に示し、障害なく再計画する。その結果,目標を達成するための時間と距離を減らし,障害物衝突の回数を大幅に減らし,航法性能の向上を図っている。
論文参考訳（メタデータ） (2021-09-30T09:41:40Z)
Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文参考訳（メタデータ） (2021-07-07T12:09:04Z)
I-ViSE: Interactive Video Surveillance as an Edge Service using Unsupervised Feature Queries [70.69741666849046]
本稿では、教師なし機能クエリに基づくエッジサービス(I-ViSE)としてインタラクティブビデオ監視を提案する。 I-ViSEのプロトタイプはエッジフォッグコンピューティングのパラダイムに従って構築され、実験により、I-ViSE方式がシーン認識の設計目標を2秒以内で満たすことを確認した。
論文参考訳（メタデータ） (2020-03-09T14:26:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。