論文の概要: WASE: Learning When to Attend for Speaker Extraction in Cocktail Party
Environments
- arxiv url: http://arxiv.org/abs/2106.07016v1
- Date: Sun, 13 Jun 2021 14:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:40:17.225110
- Title: WASE: Learning When to Attend for Speaker Extraction in Cocktail Party
Environments
- Title(参考訳): wase: カクテルパーティー環境における話者抽出のための学習時間
- Authors: Yunzhe Hao, Jiaming Xu, Peng Zhang, Bo Xu
- Abstract要約: 話者抽出問題では,対象話者からの付加情報が話者の追跡・抽出に寄与することが判明した。
発声のキューにインスパイアされ, 発声のキューを明示的にモデル化し, 話者抽出作業の有効性を検証した。
タスクの観点から、我々のオンセット/オフセットモデルでは、話者抽出と話者依存音声活動検出の相補的な組み合わせである複合タスクを完成させる。
- 参考スコア(独自算出の注目度): 21.4128321045702
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the speaker extraction problem, it is found that additional information
from the target speaker contributes to the tracking and extraction of the
target speaker, which includes voiceprint, lip movement, facial expression, and
spatial information. However, no one cares for the cue of sound onset, which
has been emphasized in the auditory scene analysis and psychology. Inspired by
it, we explicitly modeled the onset cue and verified the effectiveness in the
speaker extraction task. We further extended to the onset/offset cues and got
performance improvement. From the perspective of tasks, our onset/offset-based
model completes the composite task, a complementary combination of speaker
extraction and speaker-dependent voice activity detection. We also combined
voiceprint with onset/offset cues. Voiceprint models voice characteristics of
the target while onset/offset models the start/end information of the speech.
From the perspective of auditory scene analysis, the combination of two
perception cues can promote the integrity of the auditory object. The
experiment results are also close to state-of-the-art performance, using nearly
half of the parameters. We hope that this work will inspire communities of
speech processing and psychology, and contribute to communication between them.
Our code will be available in https://github.com/aispeech-lab/wase/.
- Abstract(参考訳): 話者抽出問題において,音声入力,唇運動,表情,空間情報を含む対象話者の追跡と抽出に,対象話者からの付加情報が寄与することがわかった。
しかし、聴覚場面の分析や心理学において強調されている音の発声を気にする人はいない。
そこで我々は,発声手がかりを明示的にモデル化し,話者抽出タスクの有効性を検証した。
さらに、オンセット/オフセットのキューまで拡張し、パフォーマンスを改善しました。
タスクの観点から、我々のオンセット/オフセットモデルでは、話者抽出と話者依存音声活動検出の相補的な組み合わせである複合タスクを完成させる。
また、voiceprintとonset/offset cuesを組み合わせた。
音声プリントはターゲットの音声特性をモデル化し、オンセット/オフセットは音声の開始/終了情報をモデル化する。
聴覚シーン分析の観点からは、2つの知覚的手がかりの組み合わせは聴覚対象の完全性を促進することができる。
実験結果は、ほぼ半分のパラメータを使用して、最先端のパフォーマンスに近い。
この研究が音声処理と心理学のコミュニティを刺激し、それら間のコミュニケーションに貢献することを願っている。
私たちのコードはhttps://github.com/aispeech-lab/wase/で利用可能です。
関連論文リスト
- Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction [13.5641621193917]
音声・視覚的対象音声抽出タスクでは、音声モダリティが支配的になりがちであり、視覚誘導の重要性を覆す可能性がある。
提案手法は,音声・視覚的対象音声抽出タスクを,音声知覚と音声生成の2段階に分割する。
生成した音声によって伝達される意味情報が、唇の動きによって伝達される意味情報と一致することを保証するために、対照的な意味マッチング損失を導入する。
論文 参考訳(メタデータ) (2024-04-19T09:08:44Z) - Audio-video fusion strategies for active speaker detection in meetings [5.61861182374067]
本稿では,2つの視覚的モダリティと,ニューラルネットワークによる音響的モダリティを組み合わせた,アクティブ話者検出のための2種類の融合を提案する。
アプリケーションコンテキストでは、モーション情報の追加がパフォーマンスを大幅に改善します。
注意に基づく融合は, 標準偏差を低減しつつ, 性能を向上することを示した。
論文 参考訳(メタデータ) (2022-06-09T08:20:52Z) - Speaker Extraction with Co-Speech Gestures Cue [79.91394239104908]
話者抽出のための話者キューとして,手動や体の動きなど,共同音声ジェスチャシーケンスの活用について検討する。
目標話者に対する注意深い聴取を行うために,共音声ジェスチャキューを用いて2つのネットワークを提案する。
実験結果から, 対象話者の関連付けにおいて, 共音声のジェスチャーキューが有意であり, 抽出した音声の品質は未処理の混合音声よりも有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-31T06:48:52Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。