論文の概要: Object Recognition System on a Tactile Device for Visually Impaired
- arxiv url: http://arxiv.org/abs/2307.02211v1
- Date: Wed, 5 Jul 2023 11:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:04:46.987655
- Title: Object Recognition System on a Tactile Device for Visually Impaired
- Title(参考訳): 視覚障害者用触覚デバイスにおける物体認識システム
- Authors: Souayah Abdelkader, Mokretar Kraroubi Abderrahmene, Slimane Larabi
- Abstract要約: このデバイスは、視覚情報を聴覚フィードバックに変換し、ユーザが自分の環境を、感覚的なニーズに合った形で理解できるようにする。
装置が特定の位置にタッチされると、シーンに存在する物体の識別を視覚障害者に伝える音声信号を提供する。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: People with visual impairments face numerous challenges when interacting with
their environment. Our objective is to develop a device that facilitates
communication between individuals with visual impairments and their
surroundings. The device will convert visual information into auditory
feedback, enabling users to understand their environment in a way that suits
their sensory needs. Initially, an object detection model is selected from
existing machine learning models based on its accuracy and cost considerations,
including time and power consumption. The chosen model is then implemented on a
Raspberry Pi, which is connected to a specifically designed tactile device.
When the device is touched at a specific position, it provides an audio signal
that communicates the identification of the object present in the scene at that
corresponding position to the visually impaired individual. Conducted tests
have demonstrated the effectiveness of this device in scene understanding,
encompassing static or dynamic objects, as well as screen contents such as TVs,
computers, and mobile phones.
- Abstract(参考訳): 視覚障害を持つ人々は、環境と対話する際に多くの課題に直面します。
本研究の目的は,視覚障害者とその周囲とのコミュニケーションを容易にするデバイスの開発である。
このデバイスは視覚情報を聴覚フィードバックに変換し、ユーザーは感覚ニーズに合った方法で環境を理解することができる。
当初、オブジェクト検出モデルは、時間や消費電力など、その正確さとコストを考慮した既存の機械学習モデルから選択される。
選択されたモデルはraspberry piに実装され、特別なデザインの触覚デバイスに接続されている。
装置が特定の位置にタッチされると、視覚障害者に対して、シーンに存在する物体の識別を対応する位置に伝達する音声信号を提供する。
実験では、静的または動的オブジェクトを含むシーン理解や、テレビ、コンピュータ、携帯電話などのスクリーンコンテンツにおけるこのデバイスの有効性を実証した。
関連論文リスト
- You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - Latent Object Characteristics Recognition with Visual to Haptic-Audio Cross-modal Transfer Learning [9.178588671620963]
この研究は、潜伏する観測不可能なオブジェクトの特性を認識することを目的としている。
視覚は一般的にロボットによる物体認識に使われるが、隠された物体を検出するには効果がない。
本稿では,視覚から触覚へのクロスモーダル・トランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:18:14Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - Touch and Go: Learning from Human-Collected Vision and Touch [16.139106833276]
我々はTouch and Goという,視覚と触覚のペアデータを用いたデータセットを提案する。
人間のデータ収集者は触覚センサーを使って自然環境の物体を探査する。
私たちのデータセットは、多数の"野生の"オブジェクトとシーンにまたがっています。
論文 参考訳(メタデータ) (2022-11-22T18:59:32Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Gaze-contingent decoding of human navigation intention on an autonomous
wheelchair platform [6.646253877148766]
We have developed the Where-You-Look-Is Where-You-Go approach to control mobile platform。
我々は,1. 深いコンピュータビジョンを用いて,ユーザが視点で何を見ているのかを理解する新しいソリューションを提案する。
私たちのデコードシステムは最終的に、ユーザーがドアなどへ運転したいかどうかを判断するか、単にそれを見るかを決定します。
論文 参考訳(メタデータ) (2021-03-04T14:52:06Z) - Learning Intuitive Physics with Multimodal Generative Models [24.342994226226786]
本稿では,視覚と触覚のフィードバックを融合させ,動的シーンにおける物体の動きを予測する枠組みを提案する。
我々は、接触面の高解像度マルチモーダルセンシングを提供する新しいSee-Through-your-Skin(STS)センサを使用します。
物体の静止状態を所定の初期条件から予測するシミュレーションおよび実世界の実験を通じて検証する。
論文 参考訳(メタデータ) (2021-01-12T12:55:53Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。