論文の概要: Developing an AI-Guided Assistant Device for the Deaf and Hearing Impaired
- arxiv url: http://arxiv.org/abs/2507.14215v1
- Date: Wed, 16 Jul 2025 05:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.771047
- Title: Developing an AI-Guided Assistant Device for the Deaf and Hearing Impaired
- Title(参考訳): 聴覚障害者のためのAI誘導アシスタントデバイスの開発
- Authors: Jiayu, Liu,
- Abstract要約: 本研究の目的は、難聴者のためのアクセシビリティデバイスのための深層学習システムを開発することである。
このデバイスは、音源を正確に特定し、リアルタイムで特定する。
- 参考スコア(独自算出の注目度): 1.9298195711993194
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study aims to develop a deep learning system for an accessibility device for the deaf or hearing impaired. The device will accurately localize and identify sound sources in real time. This study will fill an important gap in current research by leveraging machine learning techniques to target the underprivileged community. The system includes three main components. 1. JerryNet: A custom designed CNN architecture that determines the direction of arrival (DoA) for nine possible directions. 2. Audio Classification: This model is based on fine-tuning the Contrastive Language-Audio Pretraining (CLAP) model to identify the exact sound classes only based on audio. 3. Multimodal integration model: This is an accurate sound localization model that combines audio, visual, and text data to locate the exact sound sources in the images. The part consists of two modules, one object detection using Yolov9 to generate all the bounding boxes of the objects, and an audio visual localization model to identify the optimal bounding box using complete Intersection over Union (CIoU). The hardware consists of a four-microphone rectangular formation and a camera mounted on glasses with a wristband for displaying necessary information like direction. On a custom collected data set, JerryNet achieved a precision of 91. 1% for the sound direction, outperforming all the baseline models. The CLAP model achieved 98.5% and 95% accuracy on custom and AudioSet datasets, respectively. The audio-visual localization model within component 3 yielded a cIoU of 0.892 and an AUC of 0.658, surpassing other similar models. There are many future potentials to this study, paving the way to creating a new generation of accessibility devices.
- Abstract(参考訳): 本研究の目的は、難聴者のためのアクセシビリティデバイスのための深層学習システムを開発することである。
このデバイスは、音源を正確に特定し、リアルタイムで特定する。
本研究は、機械学習技術を活用して、未熟なコミュニティをターゲットにすることで、現在の研究における重要なギャップを埋めるものである。
システムには3つの主要コンポーネントが含まれている。
JerryNet: 9つの可能な方向の到着方向(DoA)を決定するカスタム設計のCNNアーキテクチャ。
2. 音声分類: このモデルは、音声のみに基づいて正確な音のクラスを特定するために、CLAP(Contrastive Language-Audio Pretraining)モデルを微調整する。
3.マルチモーダル統合モデル:これは、画像中の正確な音源を特定するために、音声、視覚、テキストデータを組み合わせた正確な音像定位モデルである。
この部分は2つのモジュールで構成されており、1つはオブジェクトのすべてのバウンディングボックスを生成するためにYolov9を使用するオブジェクト検出と、完全なIntersection over Union (CIoU)を使用して最適なバウンディングボックスを特定するためのオーディオ視覚的ローカライゼーションモデルである。
ハードウェアは4つのマイクロフォンの長方形形状と、方向などの必要な情報を表示するためのリストバンドを備えた眼鏡に装着されたカメラで構成されている。
カスタム収集データセットでは、JerryNetの精度は91。
1%で,全ベースラインモデルを上回った。
CLAPモデルはカスタムデータセットとAudioSetデータセットでそれぞれ98.5%と95%の精度を達成した。
コンポーネント3内のオーディオ-視覚的ローカライゼーションモデルでは、cIoUが0.892、AUCが0.658となり、他の類似モデルを上回った。
この研究には将来多くの可能性があり、次世代のアクセシビリティデバイスを作るための道を開く。
関連論文リスト
- Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation [3.2472293599354596]
本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声イベントの定位と検出を行うシステムについて述べる。
本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。
このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
論文 参考訳(メタデータ) (2024-10-29T17:28:43Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Sound Model Factory: An Integrated System Architecture for Generative
Audio Modelling [4.193940401637568]
2つの異なるニューラルネットワークアーキテクチャを中心に構築されたデータ駆動型音響モデル設計のための新しいシステムを提案する。
本システムの目的は、(a)モデルが合成できるべき音の範囲と、(b)その音の空間をナビゲートするためのパラメトリック制御の仕様を与えられた、インタラクティブに制御可能な音モデルを生成することである。
論文 参考訳(メタデータ) (2022-06-27T07:10:22Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - PSLA: Improving Audio Event Classification with Pretraining, Sampling,
Labeling, and Aggregation [19.09439093130855]
PSLAは,モデルの精度を著しく向上させる訓練手法の集合である。
我々は,AudioSet上で0.474の新たな平均精度(mAP)を実現するモデルを得る。
論文 参考訳(メタデータ) (2021-02-02T01:00:38Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。