論文の概要: SonicSieve: Bringing Directional Speech Extraction to Smartphones Using Acoustic Microstructures
- arxiv url: http://arxiv.org/abs/2504.10793v1
- Date: Tue, 15 Apr 2025 01:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:05:38.637899
- Title: SonicSieve: Bringing Directional Speech Extraction to Smartphones Using Acoustic Microstructures
- Title(参考訳): SonicSieve: 音響構造を用いたスマートフォンへの指向性音声抽出
- Authors: Kuang Yuan, Yifeng Wang, Xiyuxing Zhang, Chengyi Shen, Swarun Kumar, Justin Chan,
- Abstract要約: SonicSieveはスマートフォン向け初のインテリジェント指向性音声抽出システムである。
追加の電子回路を使わずに、方向の手がかりを入力音声に埋め込む。
本稿では,モバイルデバイス上で生音声の混合処理を行うエンド・ツー・エンドニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 9.513313533823137
- License:
- Abstract: Imagine placing your smartphone on a table in a noisy restaurant and clearly capturing the voices of friends seated around you, or recording a lecturer's voice with clarity in a reverberant auditorium. We introduce SonicSieve, the first intelligent directional speech extraction system for smartphones using a bio-inspired acoustic microstructure. Our passive design embeds directional cues onto incoming speech without any additional electronics. It attaches to the in-line mic of low-cost wired earphones which can be attached to smartphones. We present an end-to-end neural network that processes the raw audio mixtures in real-time on mobile devices. Our results show that SonicSieve achieves a signal quality improvement of 5.0 dB when focusing on a 30{\deg} angular region. Additionally, the performance of our system based on only two microphones exceeds that of conventional 5-microphone arrays.
- Abstract(参考訳): スマートフォンを騒がしいレストランのテーブルに置き、周囲に座っている友人の声をはっきりと捉えたり、講義者の声を残響の講堂で明瞭に録音したり。
SonicSieveは,バイオインスパイアされた音響マイクロ構造を用いたスマートフォン向け初のインテリジェント指向性音声抽出システムである。
私たちの受動的デザインは、追加の電子機器を使わずに入力音声に方向の手がかりを埋め込む。
スマートフォンに接続できる低価格の有線イヤホンのインラインマイクに接続する。
本稿では,モバイルデバイス上で生音声の混合処理を行うエンド・ツー・エンドニューラルネットワークを提案する。
その結果,30 {\deg} 角領域に着目した場合,SonicSieveは5.0dBの信号品質向上を実現していることがわかった。
さらに,2つのマイクロホンのみに基づくシステムの性能は,従来の5マイクロホンアレーよりも優れていた。
関連論文リスト
- TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement [0.0]
スロートマイクは、そのノイズ抑制特性を解決し、音声を録音する際のノイズを低減する。
音波が皮膚や組織を通過すると、高周波情報が減衰し、音声の明瞭度が低下する。
近年の深層学習アプローチでは喉頭マイクロホン記録の強化が期待されているが,標準化されたデータセットの欠如によりさらなる進歩が制限されている。
喉頭と音響のペア音声データセット (TAPS) を導入し, 喉頭と音響マイクロホンを用いた60人の韓国語話者からのペア音声の収集を行った。
論文 参考訳(メタデータ) (2025-02-17T06:29:11Z) - Array2BR: An End-to-End Noise-immune Binaural Audio Synthesis from Microphone-array Signals [31.30005077444649]
本稿では、マイクロホンアレイ信号から、Array2BRと略される新しいエンドツーエンドノイズ免疫合成フレームワークを提案する。
従来の手法と比較して,提案手法は客観的評価と主観的評価の両点において優れた性能を示した。
論文 参考訳(メタデータ) (2024-10-08T06:55:35Z) - Phoneme-Based Proactive Anti-Eavesdropping with Controlled Recording Privilege [26.3587130339825]
本稿では,情報マスキングのアイデアを取り入れた新しい音素ベースノイズを提案する。
本システムでは,すべての音声認識システムにおいて,録音の認識精度を50%以下に抑えることができる。
論文 参考訳(メタデータ) (2024-01-28T16:56:56Z) - Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables [14.69686698644447]
実環境からの特定の音に焦点を絞ったり、無視したりできる、可聴性デバイスのための新しい機能であるセマンティック・ヒアリングを導入する。
干渉音や背景雑音の存在下で対象音を抽出できる最初のニューラルネットワークを提案する。
我々は,実世界の利用を一般化する訓練手法を設計する。
論文 参考訳(メタデータ) (2023-11-01T06:07:28Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Indoor Smartphone SLAM with Learned Echoic Location Features [47.264724701407545]
スマートフォン内蔵オーディオハードウェアと慣性計測ユニット(IMU)を用いた屋内同時位置決めマッピング(SLAM)システムを提案する。
我々のシステムは、スマートフォンのスピーカーを使って、ほぼ可聴のチャープを出力し、マイクを使って室内環境から音響エコーを記録する。
ELFベースのSLAMは、リビングルーム、オフィス、ショッピングモールの再建軌道上で、0.1,textm$、0.53,textm$および0.5,textm$の平均的なローカライゼーション誤差を達成します。
論文 参考訳(メタデータ) (2022-10-16T09:41:09Z) - SuperVoice: Text-Independent Speaker Verification Using Ultrasound
Energy in Human Speech [10.354590276508283]
ボイスアクティベートシステムは、さまざまなデスクトップ、モバイル、IoT(Internet-of-Things)デバイスに統合されている。
既存の話者検証技術は、音声コマンドの可聴周波数範囲から抽出した分光学的特徴により、個々の話者を識別する。
本稿では,特徴融合機構を備えた2ストリームアーキテクチャを用いた話者検証システム SUPERVOICE を提案する。
論文 参考訳(メタデータ) (2022-05-28T18:00:50Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。