論文の概要: SonoVision: A Computer Vision Approach for Helping Visually Challenged Individuals Locate Objects with the Help of Sound Cues
- arxiv url: http://arxiv.org/abs/2512.22449v1
- Date: Sat, 27 Dec 2025 03:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.059483
- Title: SonoVision: A Computer Vision Approach for Helping Visually Challenged Individuals Locate Objects with the Help of Sound Cues
- Title(参考訳): SonoVision: 視覚障害者のための視覚的アプローチ
- Authors: Md Abu Obaida Zishan, Annajiat Alim Rasel,
- Abstract要約: SonoVision(ソノビジョン)は、聴覚障害者がイヤホンやヘッドホンを通じて、日常的な物体を見つけるのを助けるスマートフォンアプリケーションだ。
つまり、あるオブジェクトがユーザの左右の側にある場合、アプリは耳やヘッドホンを通してユーザーの耳に正弦波の音を出す。
正面に直立する物体を示すために、左右のイヤホンを同時に走行させる。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Locating objects for the visually impaired is a significant challenge and is something no one can get used to over time. However, this hinders their independence and could push them towards risky and dangerous scenarios. Hence, in the spirit of making the visually challenged more self-sufficient, we present SonoVision, a smart-phone application that helps them find everyday objects using sound cues through earphones/headphones. This simply means, if an object is on the right or left side of a user, the app makes a sinusoidal sound in a user's respective ear through ear/headphones. However, to indicate objects located directly in front, both the left and right earphones are rung simultaneously. These sound cues could easily help a visually impaired individual locate objects with the help of their smartphones and reduce the reliance on people in their surroundings, consequently making them more independent. This application is made with the flutter development platform and uses the Efficientdet-D2 model for object detection in the backend. We believe the app will significantly assist the visually impaired in a safe and user-friendly manner with its capacity to work completely offline. Our application can be accessed here https://github.com/MohammedZ666/SonoVision.git.
- Abstract(参考訳): 視覚障害者のためのオブジェクトの配置は重大な課題であり、時間の経過とともに誰も慣れないものです。
しかし、これによって彼らの独立が妨げられ、危険で危険なシナリオへと追いやられる可能性がある。
そこで、視覚障害者がより自己満足できるようにするために、私たちはSanoVisionというスマートフォンアプリケーションを紹介します。
つまり、あるオブジェクトがユーザの左右の側にある場合、アプリは耳やヘッドホンを通してユーザーの耳に正弦波の音を出す。
しかし、正面に直立する物体を示すために、左右のイヤホンを同時に走行させる。
これらのサウンドキューは、視覚障害者がスマートフォンの助けを借りて物体を見つけるのに役立ち、周囲の人々への依存を減らすことができる。
このアプリケーションはフラッター開発プラットフォームで作られ、バックエンドのオブジェクト検出にEfficientdet-D2モデルを使用している。
このアプリは、視覚障害者が安全でユーザーフレンドリーな方法で、完全にオフラインで機能する能力で、大いに役立つと信じている。
私たちのアプリケーションは、https://github.com/MohammedZ666/SonoVision.gitでアクセスできます。
関連論文リスト
- Audio-Visual Camera Pose Estimation with Passive Scene Sounds and In-the-Wild Video [49.263724131046466]
本研究では,受動的シーン音が映像の相対的ポーズ推定に補助的手がかりとなることを示す。
そこで本稿では,DOAスペクトルと組込み型埋め込みを,最先端のポーズ推定モデルに組み込む,シンプルだが効果的な音声視覚フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-13T04:14:52Z) - You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - Improve accessibility for Low Vision and Blind people using Machine Learning and Computer Vision [0.0]
このプロジェクトでは、視覚障害者のアクセシビリティ向上に機械学習とコンピュータビジョンを活用する方法について検討する。
このプロジェクトでは、視覚障害者が音声や触覚のフィードバックを受信することで、空間内でのオリエントを支援するモバイルアプリケーションの構築に集中する。
論文 参考訳(メタデータ) (2024-03-24T21:19:17Z) - Newvision: application for helping blind people using deep learning [0.0]
われわれは視覚障害者が周囲をナビゲートするのに役立つプロプライエタリなヘッドギアを開発している。
ヘッドギアにはコンピュータービジョン、距離推定、超音波センサー、音声認識、音声アシスタントが組み込まれている。
ユーザは ''What is it'' などの音声コマンドでヘッドギアと対話してオブジェクトを識別できる。
論文 参考訳(メタデータ) (2023-11-05T06:23:10Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization [13.144367063836597]
本稿では,音声活動の検出と局所化結果の堅牢性を実現するための,エンドツーエンドのディープラーニング手法を提案する。
実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-01-06T05:40:16Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。