論文の概要: Binaural Angular Separation Network
- arxiv url: http://arxiv.org/abs/2401.08864v1
- Date: Tue, 16 Jan 2024 22:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:37:16.050365
- Title: Binaural Angular Separation Network
- Title(参考訳): バイノーラル角分離ネットワーク
- Authors: Yang Yang, George Sung, Shao-Fu Shih, Hakan Erdogan, Chehung Lee,
Matthias Grundmann
- Abstract要約: 2つのマイクを用いて,異なる角度領域の音源間干渉からターゲット音声源を分離できるニューラルネットワークモデルを提案する。
このモデルはデバイス上でリアルタイムに動作し、電話やビデオ会議などの低遅延ストリーミングアプリケーションに適している。
- 参考スコア(独自算出の注目度): 7.4471290433964406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a neural network model that can separate target speech sources
from interfering sources at different angular regions using two microphones.
The model is trained with simulated room impulse responses (RIRs) using
omni-directional microphones without needing to collect real RIRs. By relying
on specific angular regions and multiple room simulations, the model utilizes
consistent time difference of arrival (TDOA) cues, or what we call delay
contrast, to separate target and interference sources while remaining robust in
various reverberation environments. We demonstrate the model is not only
generalizable to a commercially available device with a slightly different
microphone geometry, but also outperforms our previous work which uses one
additional microphone on the same device. The model runs in real-time on-device
and is suitable for low-latency streaming applications such as telephony and
video conferencing.
- Abstract(参考訳): 2つのマイクを用いて,異なる角度領域の音源間干渉からターゲット音声源を分離できるニューラルネットワークモデルを提案する。
モデルは、実RIRを収集する必要がない全方位マイクを用いて、模擬室インパルス応答(RIR)を用いて訓練される。
特定の角度領域と複数の部屋シミュレーションを頼りにすることで、様々な残響環境において頑健でありながらターゲットと干渉源を分離するために、TDOA(Content Time difference of arrival)キュー(遅延コントラスト)を利用する。
我々は、このモデルは、わずかに異なるマイクロフォン形状を持つ市販デバイスに一般化できるだけでなく、同じデバイスで1つの追加マイクを使用する以前の仕事よりも優れています。
このモデルはデバイス上でリアルタイムに動作し、電話やビデオ会議などの低遅延ストリーミングアプリケーションに適している。
関連論文リスト
- Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - PickNet: Real-Time Channel Selection for Ad Hoc Microphone Arrays [15.788867107071244]
PickNetは、携帯電話のような複数の記録デバイスで構成されるアドホックマイクロフォンアレイのリアルタイムチャネル選択のためのニューラルネットワークモデルである。
提案モデルでは,ブロックオンラインビームフォーマと単一遠方マイクロホンを用いて,計算コストの制限による単語誤り率の大幅な向上を実現した。
論文 参考訳(メタデータ) (2022-01-24T10:52:43Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。