論文の概要: An Artificial Intelligence-based Assistant for the Visually Impaired
- arxiv url: http://arxiv.org/abs/2511.06080v2
- Date: Wed, 12 Nov 2025 01:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 16:10:52.861989
- Title: An Artificial Intelligence-based Assistant for the Visually Impaired
- Title(参考訳): 視覚障害者のための人工知能アシスタント
- Authors: Luis Marquez-Carpintero, Francisco Gomez-Donoso, Zuria Bauer, Bessie Dominguez-Dager, Alvaro Belmonte-Baeza, Mónica Pina-Navarro, Francisco Morillas-Espejo, Felix Escalona, Miguel Cazorla,
- Abstract要約: 本稿では,2023年から2024年にかけて開発されたAIベースのアシスタントアプリケーションAIDENについて述べる。
視覚障害のある個人は、オブジェクトの識別、テキストの読み込み、慣れない環境のナビゲートといった課題に直面します。
このアプリケーションは最先端の機械学習アルゴリズムを利用して、オブジェクトを特定し、記述し、テキストを読み、環境に関する質問に答える。
- 参考スコア(独自算出の注目度): 2.7825760447670955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes an artificial intelligence-based assistant application, AIDEN, developed during 2023 and 2024, aimed at improving the quality of life for visually impaired individuals. Visually impaired individuals face challenges in identifying objects, reading text, and navigating unfamiliar environments, which can limit their independence and reduce their quality of life. Although solutions such as Braille, audio books, and screen readers exist, they may not be effective in all situations. This application leverages state-of-the-art machine learning algorithms to identify and describe objects, read text, and answer questions about the environment. Specifically, it uses You Only Look Once architectures and a Large Language and Vision Assistant. The system incorporates several methods to facilitate the user's interaction with the system and access to textual and visual information in an appropriate manner. AIDEN aims to enhance user autonomy and access to information, contributing to an improved perception of daily usability, as supported by user feedback.
- Abstract(参考訳): 本稿では,2023年から2024年にかけて開発されたAIベースのアシスタントアプリケーションAIDENについて述べる。
視覚障害者は、物体の識別、テキストの読み、慣れない環境のナビゲートといった課題に直面します。
点字、オーディオブック、スクリーンリーダーなどのソリューションは存在するが、全ての状況において効果的ではないかもしれない。
このアプリケーションは最先端の機械学習アルゴリズムを利用して、オブジェクトを特定して記述し、テキストを読み、環境に関する質問に答える。
具体的には、You Only Look OnceアーキテクチャとLarge Language and Vision Assistantを使用している。
本システムは,ユーザとシステムとのインタラクションを容易にし,テキスト情報や視覚情報へのアクセスを適切に行うためのいくつかの手法を取り入れている。
AIDENは、ユーザの自律性と情報へのアクセスを向上させることを目的としており、ユーザのフィードバックによってサポートされた日々のユーザビリティに対する認識の向上に貢献している。
関連論文リスト
- AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。
大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文 参考訳(メタデータ) (2024-12-28T07:26:39Z) - AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model [2.2469442203227863]
組込みRGBカメラとLarge Language Model(LLM)を用いたスマートグラスを用いたインテリジェントリーディングアシスタントを提案する。
眼鏡をかけている人の自我中心から見た映像を処理し、オブジェクト検出と光学文字認識方法を用いてテキスト情報をローカライズする。
LLMはデータを処理し、ユーザはテキストと対話し、所定のクエリに応答し、修正レンズの機能を拡張する。
論文 参考訳(メタデータ) (2024-04-14T13:39:02Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - VisBuddy -- A Smart Wearable Assistant for the Visually Challenged [0.0]
VisBuddyは音声ベースのアシスタントで、ユーザーは音声コマンドで特定のタスクを実行することができる。
ユーザの周囲を記述するための画像キャプション技術、ユーザの視点でテキストを読み取るための光学文字認識(OCR)、部屋内のオブジェクトを検索して見つけるためのオブジェクト検出、最新のニュースを提供するためのWebスクレイピングを使用する。
論文 参考訳(メタデータ) (2021-08-17T17:15:23Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。