論文の概要: In-Ear-Voice: Towards Milli-Watt Audio Enhancement With Bone-Conduction
Microphones for In-Ear Sensing Platforms
- arxiv url: http://arxiv.org/abs/2309.02393v1
- Date: Tue, 5 Sep 2023 17:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 13:41:49.458006
- Title: In-Ear-Voice: Towards Milli-Watt Audio Enhancement With Bone-Conduction
Microphones for In-Ear Sensing Platforms
- Title(参考訳): In-Ear-Voice:In-Ear Sensing Platformのための骨導マイクロホンによるミリワットオーディオ改善に向けて
- Authors: Philipp Schilk, Niccol\`o Polvani, Andrea Ronco, Milos Cernak, Michele
Magno
- Abstract要約: 本稿では,新しいMEMS骨伝導マイクロホンをベースとした低消費電力ワイヤレスイヤホン用カスタム研究プラットフォームの設計と実装について述べる。
このようなマイクは、装着者の音声をはるかに分離して記録することができ、パーソナライズされた音声活動の検出とさらなる音声強調アプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 8.946335367620698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent ubiquitous adoption of remote conferencing has been accompanied by
omnipresent frustration with distorted or otherwise unclear voice
communication. Audio enhancement can compensate for low-quality input signals
from, for example, small true wireless earbuds, by applying noise suppression
techniques. Such processing relies on voice activity detection (VAD) with low
latency and the added capability of discriminating the wearer's voice from
others - a task of significant computational complexity. The tight energy
budget of devices as small as modern earphones, however, requires any system
attempting to tackle this problem to do so with minimal power and processing
overhead, while not relying on speaker-specific voice samples and training due
to usability concerns.
This paper presents the design and implementation of a custom research
platform for low-power wireless earbuds based on novel, commercial, MEMS
bone-conduction microphones. Such microphones can record the wearer's speech
with much greater isolation, enabling personalized voice activity detection and
further audio enhancement applications. Furthermore, the paper accurately
evaluates a proposed low-power personalized speech detection algorithm based on
bone conduction data and a recurrent neural network running on the implemented
research platform. This algorithm is compared to an approach based on
traditional microphone input. The performance of the bone conduction system,
achieving detection of speech within 12.8ms at an accuracy of 95\% is
evaluated. Different SoC choices are contrasted, with the final implementation
based on the cutting-edge Ambiq Apollo 4 Blue SoC achieving 2.64mW average
power consumption at 14uJ per inference, reaching 43h of battery life on a
miniature 32mAh li-ion cell and without duty cycling.
- Abstract(参考訳): 近年の遠隔会議の普及には,ゆがみや不明瞭な音声通信によるフラストレーションが伴っている。
音声強調は、例えば小さな真のワイヤレスイヤホンからの低品質入力信号をノイズ抑圧技術を適用して補償することができる。
このような処理は、低レイテンシの音声アクティビティ検出(vad)と、着用者の声を他人と区別する機能を追加する能力に依存する。
しかし、現代のイヤホンほど小型のデバイスのエネルギー予算は厳しいが、ユーザビリティの懸念からスピーカー固有の音声サンプルやトレーニングに頼らず、最小の電力と処理オーバーヘッドでこの問題に対処しようとするあらゆるシステムが必要となる。
本稿では,新しいMEMS骨伝導マイクロホンをベースとした低消費電力ワイヤレスイヤホン用カスタム研究プラットフォームの設計と実装について述べる。
このようなマイクは、装着者の音声をはるかに分離して記録することができ、パーソナライズされた音声活動の検出とさらなる音声強調アプリケーションを可能にする。
さらに,骨伝導データと,実装された研究プラットフォーム上での繰り返しニューラルネットワークに基づいて,提案する低消費電力音声検出アルゴリズムを精度良く評価する。
このアルゴリズムは従来のマイクロホン入力に基づくアプローチと比較される。
95\%の精度で12.8ms以内の音声検出を実現する骨伝導システムの性能を評価する。
異なるSoC選択は対照的であり、最後の実装は最先端のAmbiq Apollo 4 Blue SoCに基づいており、平均消費電力は14uJあたり2.64mWで、小型の32mAhリイオンセルで43hに達する。
関連論文リスト
- TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement [0.0]
スロートマイクは、そのノイズ抑制特性を解決し、音声を録音する際のノイズを低減する。
音波が皮膚や組織を通過すると、高周波情報が減衰し、音声の明瞭度が低下する。
近年の深層学習アプローチでは喉頭マイクロホン記録の強化が期待されているが,標準化されたデータセットの欠如によりさらなる進歩が制限されている。
喉頭と音響のペア音声データセット (TAPS) を導入し, 喉頭と音響マイクロホンを用いた60人の韓国語話者からのペア音声の収集を行った。
論文 参考訳(メタデータ) (2025-02-17T06:29:11Z) - Phoneme-Based Proactive Anti-Eavesdropping with Controlled Recording Privilege [26.3587130339825]
本稿では,情報マスキングのアイデアを取り入れた新しい音素ベースノイズを提案する。
本システムでは,すべての音声認識システムにおいて,録音の認識精度を50%以下に抑えることができる。
論文 参考訳(メタデータ) (2024-01-28T16:56:56Z) - EchoVest: Real-Time Sound Classification and Depth Perception Expressed
through Transcutaneous Electrical Nerve Stimulation [0.0]
我々は、視覚障害者や聴覚障害者が自分の環境をより直感的に認識できるように、新しい補助デバイス、EchoVestを開発した。
EchoVestは、音の音源に基づいて経皮的電気神経刺激(TENS)を利用して、ユーザの身体に振動を伝達する。
我々は、CNNベースの機械学習モデルよりも精度と計算コストにおいて、分類タスクに最もよく使用される機械学習モデルより優れていることを目指していた。
論文 参考訳(メタデータ) (2023-07-10T14:43:32Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z) - Reinforcement Learning for Minimizing Age of Information in Real-time
Internet of Things Systems with Realistic Physical Dynamics [158.67956699843168]
本稿では,インターネット・オブ・モノ(IoT)デバイスにおける情報量(AoI)と総エネルギー消費の重み付けを最小化する問題について検討する。
サンプリングポリシを最適化するために,分散強化学習手法を提案する。
PM 2.5公害の実データを用いたシミュレーションでは、提案アルゴリズムがAoIの合計を最大17.8%および33.9%削減できることが示された。
論文 参考訳(メタデータ) (2021-04-04T03:17:26Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。