論文の概要: A Practical Approach to Power Saving in Hearables Using Sub-Nyquist Sampling with Bandwidth Extension
- arxiv url: http://arxiv.org/abs/2506.22321v1
- Date: Fri, 27 Jun 2025 15:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.265161
- Title: A Practical Approach to Power Saving in Hearables Using Sub-Nyquist Sampling with Bandwidth Extension
- Title(参考訳): 帯域拡張を用いたサブニキストサンプリングによる難聴者の省電力化
- Authors: Tarikul Islam Tamiti, Anomadarshi Barua,
- Abstract要約: 骨伝導マイクロホン(BCM)は、騒音条件下でのマルチモーダル音声強調(SE)の支持モードとして、可聴器内の空気伝導マイクロホン(ACM)と共に使用される。
SubARUはADCのサブニキストサンプリングと低ビット解像度を使用し、消費電力を3.31倍削減する。
SubARUは1.74msの推論時間と13.77MB未満のメモリフットプリントで、モバイルプラットフォームとSE上でのストリーミング操作を実現する。
- 参考スコア(独自算出の注目度): 3.2381492416039475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hearables are wearable computers that are worn on the ear. Bone conduction microphones (BCMs) are used with air conduction microphones (ACMs) in hearables as a supporting modality for multimodal speech enhancement (SE) in noisy conditions. However, existing works don't consider the following practical aspects for low-power implementations on hearables: (i) They do not explore how lowering the sampling frequencies and bit resolutions in analog-to-digital converters (ADCs) of hearables jointly impact low-power processing and multimodal SE in terms of speech quality and intelligibility. (ii) They don't discuss how GAN-like audio quality can be achieved without using actual GAN discriminators. And (iii) They don't process signals from ACMs/BCMs at sub-Nyquist sampling rate because, in their frameworks, they lack a wideband reconstruction methodology from their narrowband parts. We propose SUBARU (\textbf{Sub}-Nyquist \textbf{A}udio \textbf{R}esolution \textbf{U}psampling), which achieves the following: SUBARU (i) intentionally uses sub-Nyquist sampling and low bit resolution in ADCs, achieving a 3.31x reduction in power consumption; (ii) introduces novel multi-scale and multi-period virtual discriminators, which achieve GAN-like audio quality without using GANs' adversarial training; and (iii) achieves streaming operations on mobile platforms and SE in in-the-wild noisy conditions with an inference time of 1.74ms and a memory footprint of less than 13.77MB.
- Abstract(参考訳): 可聴性(Hearables)は、耳に装着するウェアラブルコンピュータである。
骨伝導マイクロホン(BCM)は、騒音条件下でのマルチモーダル音声強調(SE)の支持モードとして、可聴器内の空気伝導マイクロホン(ACM)と共に使用される。
しかし、既存の著作物は、可聴器の低消費電力実装について下記の実践的側面を考慮していない。
(i)聴取器のアナログ・デジタルコンバータ(ADC)におけるサンプリング周波数とビット分解能の低下が,低消費電力処理とマルチモーダルSEに音声品質とインテリジェンスの観点からどのように影響するかを考察しない。
(II)実際のGAN識別装置を使わずに、GANライクな音質を実現する方法については議論していない。
そして
三 サブニキストサンプリングレートでのACM/BCMからの信号を処理しないのは、彼らのフレームワークにおいて、狭帯域部分からの広帯域再構成手法が欠如しているためである。
SUBARU (\textbf{Sub}-Nyquist \textbf{A}udio \textbf{R}esolution \textbf{U}psampling) を提案する。
i) ADCにおけるサブニキストサンプリングと低ビット解像度を意図的に使用し、消費電力を3.31倍削減する。
(II)新しいマルチスケール・マルチ周期仮想ディスクリミネータを導入し、GANの対角訓練を使わずに、GANライクな音質を実現する。
(iii) 推定時間1.74ms、メモリフットプリント13.77MB未満で、モバイルプラットフォームとSE上でのストリーミング操作を実現する。
関連論文リスト
- Reliable Few-shot Learning under Dual Noises [166.53173694689693]
そこで我々はDETA++(Denoized Task Adaptation)を提案する。
DETA++はメモリバンクを使用して、各インナータスククラスのクリーンなリージョンを格納し、精製する。
大規模な実験は、DETA++の有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2025-06-19T14:05:57Z) - KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation [5.499862297916013]
カーネル・オーディオ・ディスタンス(Kernel Audio Distance, KAD)は、最大平均離散性(MMD)に基づく分布自由、非バイアス、計算効率の指標である。
高度な埋め込みと特徴的カーネルを活用することで、KADは実際のオーディオと生成されたオーディオの微妙な違いをキャプチャする。
Kadtkツールキットでオープンソース化されたKADは、生成的オーディオモデルを評価するための効率的で信頼性があり、知覚的に整合したベンチマークを提供する。
論文 参考訳(メタデータ) (2025-02-21T17:19:15Z) - Towards Sub-millisecond Latency Real-Time Speech Enhancement Models on Hearables [21.542503235873227]
低レイテンシモデルは、補聴器や補聴器などのリアルタイム音声強調アプリケーションに不可欠である。
計算効率のよい最小位相FIRフィルタを用いて音声強調を行い、サンプル・バイ・サンプル処理により平均アルゴリズム遅延0.32msから1.25msを実現した。
この作業によってレイテンシの理解が向上し,可聴性の快適性とユーザビリティの向上が期待できます。
論文 参考訳(メタデータ) (2024-09-26T19:31:05Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - In-Ear-Voice: Towards Milli-Watt Audio Enhancement With Bone-Conduction
Microphones for In-Ear Sensing Platforms [8.946335367620698]
本稿では,新しいMEMS骨伝導マイクロホンをベースとした低消費電力ワイヤレスイヤホン用カスタム研究プラットフォームの設計と実装について述べる。
このようなマイクは、装着者の音声をはるかに分離して記録することができ、パーソナライズされた音声活動の検出とさらなる音声強調アプリケーションを可能にする。
論文 参考訳(メタデータ) (2023-09-05T17:04:09Z) - Realistic Noise Synthesis with Diffusion Models [44.404059914652194]
ディープラーニングモデルには、大規模な実世界のトレーニングデータが必要です。
本稿では,これらの課題に対処するために拡散モデルを用いた新しい実音合成拡散器(RNSD)法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Speaker Diaphragm Excursion Prediction: deep attention and online
adaptation [2.8349018797311314]
本稿では,非線形探索を正確にモデル化し,予測するための効率的なDLソリューションを提案する。
提案アルゴリズムは2つの話者と3つの典型的な展開シナリオで検証され、残留DCの$99%は0.1mm未満である。
論文 参考訳(メタデータ) (2023-05-11T08:17:55Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。