Fugu-MT 論文翻訳(概要): AIris: An AI-powered Wearable Assistive Device for the Visually Impaired

論文の概要: AIris: An AI-powered Wearable Assistive Device for the Visually Impaired

arxiv url: http://arxiv.org/abs/2405.07606v2
Date: Fri, 9 Aug 2024 19:54:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 23:07:09.525865
Title: AIris: An AI-powered Wearable Assistive Device for the Visually Impaired
Title（参考訳）: AIris:視覚障害者のためのAIを利用したウェアラブル補助デバイス
Authors: Dionysia Danai Brilli, Evangelos Georgaras, Stefania Tsilivaki, Nikos Melanitis, Konstantina Nikita,
Abstract要約: AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assistive technologies for the visually impaired have evolved to facilitate interaction with a complex and dynamic world. In this paper, we introduce AIris, an AI-powered wearable device that provides environmental awareness and interaction capabilities to visually impaired users. AIris combines a sophisticated camera mounted on eyewear with a natural language processing interface, enabling users to receive real-time auditory descriptions of their surroundings. We have created a functional prototype system that operates effectively in real-world conditions. AIris demonstrates the ability to accurately identify objects and interpret scenes, providing users with a sense of spatial awareness previously unattainable with traditional assistive devices. The system is designed to be cost-effective and user-friendly, supporting general and specialized tasks: face recognition, scene description, text reading, object recognition, money counting, note-taking, and barcode scanning. AIris marks a transformative step, bringing AI enhancements to assistive technology, enabling rich interactions with a human-like feel.
Abstract（参考訳）: 視覚障害者のための補助技術は、複雑でダイナミックな世界との相互作用を促進するために進化してきた。本稿では,視覚障害者に環境認識とインタラクション機能を提供する,AIを活用したウェアラブルデバイスであるAIrisを紹介する。 AIrisは、眼鏡に装着された洗練されたカメラと自然言語処理インターフェースを組み合わせることで、ユーザーは周囲の聴覚的記述をリアルタイムで受信することができる。我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。 AIrisは、オブジェクトを正確に識別し、シーンを解釈する能力を示し、従来の補助装置では達成不可能な空間認識をユーザに提供する。このシステムは費用対効果が高くユーザフレンドリで、顔認識、シーン記述、テキスト読取、オブジェクト認識、マネーカウント、メモ取り、バーコードスキャンといった、一般的および特殊なタスクをサポートするように設計されている。 AIrisは変革的なステップであり、AIの強化を補助技術に持ち込み、人間のような感覚とリッチな対話を可能にする。

関連論文リスト

Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired [10.648018999640758]
視力障害8例(BVI)を主訴に来院した。この結果から,現在のライブビデオAIは静的なシーンのガイダンスや回答を効果的に提供するが,ダイナミックな状況において必要不可欠なライブ記述の提供には不十分であることが示唆された。我々は、実世界の利用に付加的なセンシング機能を導入することを含む、補助的なビデオAIエージェントへの影響について論じる。
論文参考訳（メタデータ） (2025-08-05T16:59:02Z)
Embodied AI Agents: Modeling the World [188.85697524284834]
本稿では,視覚的,仮想的,物理的形態を具現化したAIエージェントの研究について述べる。我々は,世界モデルの開発が,具体的AIエージェントの推論と計画の中心であることを提案する。また,より優れた人間とエージェントのコラボレーションを実現するために,ユーザのメンタルワールドモデルを学ぶことを提案する。
論文参考訳（メタデータ） (2025-06-27T16:05:34Z)
Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models [50.19518681574399]
現実の遠隔操作における中心的な課題は、ロボットがユーザー制御入力から幅広い人間の意図を推測することである。我々は、事前学習された視覚言語モデルに埋め込まれたコモンセンス知識を活用する、支援型遠隔操作システムであるCasperを紹介する。我々は,Casperがタスク性能を改善し,人間の認知負荷を低減し,直接遠隔操作や補助遠隔操作のベースラインよりもユーザ満足度が高いことを示す。
論文参考訳（メタデータ） (2025-06-17T17:06:43Z)
Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。 PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文参考訳（メタデータ） (2025-05-18T07:33:31Z)
A Human Digital Twin Architecture for Knowledge-based Interactions and Context-Aware Conversations [0.9580312063277943]
人工知能(AI)と機械学習(ML)の最近の進歩は、HAT(Human-Autonomy Teaming)の新しい機会を生み出している。本稿では,知識報告,回答,レコメンデーションのためのLarge Language Models(LLM)を統合したリアルタイムHuman Digital Twin(HDT)アーキテクチャを提案する。 HDTは、トレーニングからデプロイメント、アフターアクションレビューまで、ミッションライフサイクル全体を通して統合された、視覚的で行動的に現実的なチームメンバーとして機能します。
論文参考訳（メタデータ） (2025-04-04T03:56:26Z)
Leveraging LLMs with Iterative Loop Structure for Enhanced Social Intelligence in Video Question Answering [13.775516653315103]
社会的知性は効果的なコミュニケーションと適応応答に不可欠である。現在のソーシャルインテリジェンスのためのビデオベースの手法は、一般的なビデオ認識や感情認識技術に依存している。本稿では,大規模言語モデルと視覚情報を統合したLooped Video Debatingフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-27T06:14:21Z)
AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文参考訳（メタデータ） (2024-12-28T07:26:39Z)
The AI Interface: Designing for the Ideal Machine-Human Experience (Editorial) [1.8074330674710588]
本論では,AI体験デザインの心理学を探求する特集を紹介する。このコレクションの論文は、人間とAIの相互作用における信頼、透明性、感情的な感受性の複雑さを強調している。 8つの多様な研究から得られた知見により、この論説は、効率と共感のバランスをとるためのAIインターフェースの必要性を強調している。
論文参考訳（メタデータ） (2024-11-29T15:17:32Z)
Heads Up eXperience (HUX): Always-On AI Companion for Human Computer Environment Interaction [0.5825410941577593]
Heads Up eXperience (HUX)は、デジタル環境と人間環境のギャップを埋めるように設計されたAIシステムである。ユーザの視線を追跡し、周囲の環境を分析し、言語コンテキストを解釈することにより、システムはマルチモーダルデータをキャプチャし、強化する。 HUX AIは、スマートグラスと拡張現実ヘッドセットへの展開を念頭に置いて、日々の生活のための個人的で有用なAIコンパニオンになることを目指している。
論文参考訳（メタデータ） (2024-07-28T13:15:51Z)
GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual AI for Smart Eyewear [30.71112461604336]
本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。 GazeGPTは、視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。我々は、この視線移入機構が代替手段よりも高速で高精度なポインティング機構であることが示している。
論文参考訳（メタデータ） (2024-01-30T18:02:44Z)
Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文参考訳（メタデータ） (2024-01-07T19:11:18Z)
Robot Synesthesia: In-Hand Manipulation with Visuotactile Sensing [15.970078821894758]
視覚的・触覚的な感覚入力を活用して手動操作を可能にするシステムを提案する。ロボット・シンセシス(Robot Synesthesia)は、人間の触覚と視覚の合成にインスパイアされた、新しい点の雲に基づく触覚表現である。
論文参考訳（メタデータ） (2023-12-04T12:35:43Z)
Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文参考訳（メタデータ） (2023-11-13T21:20:17Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation [49.925499720323806]
視覚的、聴覚的、触覚的知覚が、ロボットが複雑な操作タスクを解くのにどのように役立つかを研究する。私たちは、カメラで見たり、コンタクトマイクで聞いたり、視覚ベースの触覚センサーで感じるロボットシステムを構築しました。
論文参考訳（メタデータ） (2022-12-07T18:55:53Z)
The Gesture Authoring Space: Authoring Customised Hand Gestures for Grasping Virtual Objects in Immersive Virtual Environments [81.5101473684021]
本研究は、仮想オブジェクトを現実世界のようにつかむことができる、オブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのカスタマイズされた手の動きを設計および作成するために技術的な知識を必要としない。本研究は,提案手法を用いて作成したジェスチャーが,ユーザによって他のユーザよりも自然な入力モダリティとして認識されていることを示した。
論文参考訳（メタデータ） (2022-07-03T18:33:33Z)
AEGIS: A real-time multimodal augmented reality computer vision based system to assist facial expression recognition for individuals with autism spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文参考訳（メタデータ） (2020-10-22T17:20:38Z)
A Deep Learning based Wearable Healthcare IoT Device for AI-enabled Hearing Assistance Automation [6.283190933140046]
本研究は、聴覚障害や聴覚障害に苦しむ人々を支援するAI対応IoT(Internet of Things)デバイスを提案する。 Googleのオンライン音声認識サービスを活用して、受信した会話をテキストに変換し、眼鏡に取り付けられたマイクロディスプレイに展開し、会話内容を聴覚障害者に表示するサーバアプリケーションを作成する。
論文参考訳（メタデータ） (2020-05-16T19:42:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。