論文の概要: Learning to Separate Voices by Spatial Regions
- arxiv url: http://arxiv.org/abs/2207.04203v1
- Date: Sat, 9 Jul 2022 06:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 16:24:21.924318
- Title: Learning to Separate Voices by Spatial Regions
- Title(参考訳): 空間領域による音声の分離学習
- Authors: Zhongweiyang Xu and Romit Roy Choudhury
- Abstract要約: イヤホンや補聴器などの応用における音声分離の問題点を考察する。
比較的クリーンなパーソナライズされた信号を抽出するために、イヤホンからの過剰な音声を前処理する2段階の自己教師型フレームワークを提案する。
結果は、一般的な教師付きアプローチよりもパーソナライズの重要性を強調し、有望なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 5.483801693991577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of audio voice separation for binaural applications,
such as earphones and hearing aids. While today's neural networks perform
remarkably well (separating $4+$ sources with 2 microphones) they assume a
known or fixed maximum number of sources, K. Moreover, today's models are
trained in a supervised manner, using training data synthesized from generic
sources, environments, and human head shapes.
This paper intends to relax both these constraints at the expense of a slight
alteration in the problem definition. We observe that, when a received mixture
contains too many sources, it is still helpful to separate them by region,
i.e., isolating signal mixtures from each conical sector around the user's
head. This requires learning the fine-grained spatial properties of each
region, including the signal distortions imposed by a person's head. We propose
a two-stage self-supervised framework in which overheard voices from earphones
are pre-processed to extract relatively clean personalized signals, which are
then used to train a region-wise separation model. Results show promising
performance, underscoring the importance of personalization over a generic
supervised approach. (audio samples available at our project website:
https://uiuc-earable-computing.github.io/binaural/. We believe this result
could help real-world applications in selective hearing, noise cancellation,
and audio augmented reality.
- Abstract(参考訳): 補聴器や補聴器などのバイノーラル応用における音声分離の問題点について考察する。
今日のニューラルネットワークは、非常によく機能する(4ドル以上のソースと2つのマイクを分離する)が、既知のまたは固定されたソース数、Kを仮定する。さらに、今日のモデルは、ジェネリックソース、環境、人間の頭形から合成されたトレーニングデータを使用して、教師付き方法でトレーニングされている。
本稿では,問題定義の変更を犠牲にして,これらの制約を緩和することを目的とする。
受信した混合物が多すぎると、その混合物を領域別に分離する、すなわち、ユーザの頭の周りの各円錐形セクタから信号混合物を分離する、という方法が依然として有用である。
これは、人の頭によって課される信号歪みを含む各領域のきめ細かい空間特性を学ぶ必要がある。
そこで本研究では,耳から聞こえた音声を事前に処理し,比較的クリーンなパーソナライズされた信号を抽出する2段階の自己教師付きフレームワークを提案する。
結果は有望なパフォーマンスを示し、一般的な教師付きアプローチよりもパーソナライズの重要性を強調している。
(audioのサンプルはプロジェクトのwebサイトにある。 https://uiuc-earable-computing.github.io/binaural/
この結果は、聴覚、ノイズキャンセリング、オーディオ拡張現実といった現実世界のアプリケーションに役立つと信じています。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Sound Localization from Motion: Jointly Learning Sound Direction and
Camera Rotation [26.867430697990674]
我々は、頭部を回転させると微妙だが幾何的に一貫した変化を起こす画像と音を使って、カメラの回転と音源の定位を推定する。
視覚モデルは、一対の画像からカメラの回転を予測し、音声モデルは、音源の方向を音から予測する。
これらのモデルをトレーニングして、互いに一致する予測を生成します。
本モデルでは, 実シーンと合成シーンの両方で回転を推定し, 最先端の自己監督手法と競合する精度で音源のローカライズを行う。
論文 参考訳(メタデータ) (2023-03-20T17:59:55Z) - AudioEar: Single-View Ear Reconstruction for Personalized Spatial Audio [44.460995595847606]
単一視点画像を用いて3次元人間の耳を再構成し,パーソナライズされた空間音声を実現することを提案する。
視覚と音響のギャップを埋めるために,再建された耳メッシュと市販の3D人体を一体化するためのパイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-30T02:15:50Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。
複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。
本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T12:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。