論文の概要: EchoVest: Real-Time Sound Classification and Depth Perception Expressed
through Transcutaneous Electrical Nerve Stimulation
- arxiv url: http://arxiv.org/abs/2307.04604v1
- Date: Mon, 10 Jul 2023 14:43:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:42:34.396564
- Title: EchoVest: Real-Time Sound Classification and Depth Perception Expressed
through Transcutaneous Electrical Nerve Stimulation
- Title(参考訳): EchoVest:経皮的電気神経刺激による音のリアルタイム分類と深部知覚
- Authors: Jesse Choe, Siddhant Sood, Ryan Park
- Abstract要約: 我々は、視覚障害者や聴覚障害者が自分の環境をより直感的に認識できるように、新しい補助デバイス、EchoVestを開発した。
EchoVestは、音の音源に基づいて経皮的電気神経刺激(TENS)を利用して、ユーザの身体に振動を伝達する。
我々は、CNNベースの機械学習モデルよりも精度と計算コストにおいて、分類タスクに最もよく使用される機械学習モデルより優れていることを目指していた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over 1.5 billion people worldwide live with hearing impairment. Despite
various technologies that have been created for individuals with such
disabilities, most of these technologies are either extremely expensive or
inaccessible for everyday use in low-medium income countries. In order to
combat this issue, we have developed a new assistive device, EchoVest, for
blind/deaf people to intuitively become more aware of their environment.
EchoVest transmits vibrations to the user's body by utilizing transcutaneous
electric nerve stimulation (TENS) based on the source of the sounds. EchoVest
also provides various features, including sound localization, sound
classification, noise reduction, and depth perception. We aimed to outperform
CNN-based machine-learning models, the most commonly used machine learning
model for classification tasks, in accuracy and computational costs. To do so,
we developed and employed a novel audio pipeline that adapts the Audio
Spectrogram Transformer (AST) model, an attention-based model, for our sound
classification purposes, and Fast Fourier Transforms for noise reduction. The
application of Otsu's Method helped us find the optimal thresholds for
background noise sound filtering and gave us much greater accuracy. In order to
calculate direction and depth accurately, we applied Complex Time Difference of
Arrival algorithms and SOTA localization. Our last improvement was to use blind
source separation to make our algorithms applicable to multiple microphone
inputs. The final algorithm achieved state-of-the-art results on numerous
checkpoints, including a 95.7\% accuracy on the ESC-50 dataset for
environmental sound classification.
- Abstract(参考訳): 世界の15億人以上が聴覚障害で暮らしている。
このような障害を持つ個人向けに作られた様々な技術にもかかわらず、これらの技術のほとんどは、低中所得国で日常的に使用するために非常に高価かアクセス不能である。
この問題に対処するため、我々は視覚障害者や聴覚障害者が直感的に自分の環境を認識できる新しい補助デバイス、EchoVestを開発した。
EchoVestは、音の音源に基づいて経皮的電気神経刺激(TENS)を利用して、ユーザの身体に振動を伝達する。
EchoVestには、音のローカライゼーション、音の分類、ノイズ低減、深度知覚など、さまざまな機能もある。
分類タスクに最も一般的に使用される機械学習モデルであるcnnベースの機械学習モデルを、精度と計算コストにおいて上回ることを目標とした。
そこで我々は,音響スペクトルトランスフォーマ(ast)モデル,注意に基づくモデル,雑音低減のための高速フーリエ変換を適応させた新しい音響パイプラインを開発した。
大津法の適用により,背景雑音フィルタの最適しきい値を求めることができ,精度が向上した。
方向と深度を正確に計算するために、アーリバルアルゴリズムとSOTAローカライゼーションの複素時間差を適用した。
最後の改善は、ブラインドソース分離を使用して、アルゴリズムを複数のマイクロホン入力に適用できるようにすることでした。
最終的なアルゴリズムは、環境音分類のためのesc-50データセットの95.7\%精度を含む多数のチェックポイントで最先端の結果を得た。
関連論文リスト
- DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs [12.234206036041218]
我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。
音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
論文 参考訳(メタデータ) (2024-07-30T04:32:27Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Utilizing synthetic training data for the supervised classification of
rat ultrasonic vocalizations [0.0]
ミューリンは120kHzの周波数で超音波発声(USV)を発生させる。
これらの呼び出しは社会的行動において重要であるため、その分析は声道コミュニケーションの機能とその機能に関する洞察を与えることができる。
我々は、ラットのUSVを含むオーディオにおいて、訓練された人間の2つの畳み込みニューラルネットワーク(CNN)、DeepSqueak、VocalMatの検出と分類性能を比較した。
論文 参考訳(メタデータ) (2023-03-03T03:17:45Z) - Walking Noise: On Layer-Specific Robustness of Neural Architectures against Noisy Computations and Associated Characteristic Learning Dynamics [1.5184189132709105]
本稿では,異なる分類タスクとモデルアーキテクチャに対する加法的,乗法的,混合ノイズの影響について論じる。
本研究では,ロバスト性を測定するため,層固有のノイズを注入するウォーキングノイズ法を提案する。
我々は,この方法論の実践的利用に関する議論をまとめ,ノイズの多い環境での適応型マルチエグゼクティブの活用について論じる。
論文 参考訳(メタデータ) (2022-12-20T17:09:08Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Neural Architecture Search for Energy Efficient Always-on Audio Models [1.3846912186423144]
我々は,ニューラルネットワーク検索(NAS)にいくつかの変更を加えて,現実的な状況における成功の可能性を改善する。
実際のハードウェアで検索のパフォーマンスをベンチマークするが、実際のハードウェアで何千ものテストを実行することは難しいため、ランダムなフォレストモデルを用いて、候補ネットワークのエネルギー使用量を概ね予測する。
その結果,AudioSetをベースとした音響イベント分類データセットを用いて,推定毎のエネルギーの桁違いが小さく,メモリフットプリントもはるかに小さくなった。
論文 参考訳(メタデータ) (2022-02-09T06:10:18Z) - Deep Neural Networks on EEG Signals to Predict Auditory Attention Score
Using Gramian Angular Difference Field [1.9899603776429056]
ある意味では、個人の聴覚的注意スコアは、聴覚的タスクにおいて、その人が持つことができる焦点を示す。
深層学習の最近の進歩と、神経活動を記録する非侵襲的技術は、脳波(EEG)などの技術とともに、個人の聴覚的注意スコアを予測することができるのか?
本稿では,14チャンネルの脳波信号を用いて脳の電気的活動に基づいて聴覚的注意度を推定する問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-24T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。