論文の概要: Tackling real noisy reverberant meetings with all-neural source
separation, counting, and diarization system
- arxiv url: http://arxiv.org/abs/2003.03987v1
- Date: Mon, 9 Mar 2020 09:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:37:06.492593
- Title: Tackling real noisy reverberant meetings with all-neural source
separation, counting, and diarization system
- Title(参考訳): 全神経源分離・計数・ダイアリゼーションシステムによる実雑音残響会議への取り組み
- Authors: Keisuke Kinoshita, Marc Delcroix, Shoko Araki, Tomohiro Nakatani
- Abstract要約: 本稿では、音源分離、話者ダイアリゼーション、音源カウント問題を共同で解決する全神経アプローチを提案する。
実験により、全神経アプローチが効果的な音声強調を行い、同時に最先端のシステムより優れていることを示す。
- 参考スコア(独自算出の注目度): 105.09252216321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic meeting analysis is an essential fundamental technology required to
let, e.g. smart devices follow and respond to our conversations. To achieve an
optimal automatic meeting analysis, we previously proposed an all-neural
approach that jointly solves source separation, speaker diarization and source
counting problems in an optimal way (in a sense that all the 3 tasks can be
jointly optimized through error back-propagation). It was shown that the method
could well handle simulated clean (noiseless and anechoic) dialog-like data,
and achieved very good performance in comparison with several conventional
methods. However, it was not clear whether such all-neural approach would be
successfully generalized to more complicated real meeting data containing more
spontaneously-speaking speakers, severe noise and reverberation, and how it
performs in comparison with the state-of-the-art systems in such scenarios. In
this paper, we first consider practical issues required for improving the
robustness of the all-neural approach, and then experimentally show that, even
in real meeting scenarios, the all-neural approach can perform effective speech
enhancement, and simultaneously outperform state-of-the-art systems.
- Abstract(参考訳): 自動ミーティング分析は、スマートデバイスが会話に追従し、反応するために必要な、基本的な技術である。
最適な自動ミーティング分析を実現するために,我々は以前,ソース分離,話者ダイアリゼーション,ソースカウント問題(すべての3つのタスクがエラーバックプロパゲーションによって協調的に最適化できるという意味で)を協調的に解決するオールニューラルアプローチを提案した。
提案手法は, クリーン(無雑音, 無響)なダイアログのようなデータを扱うことができ, 従来の手法と比較して非常に優れた性能を示した。
しかし、このような全脳的アプローチが、より自然に話す話者、激しい騒音と残響を含むより複雑な実際の会議データに一般化されるか、そしてそのようなシナリオにおける最先端システムと比較してどのように機能するかは明らかになっていない。
本稿では,まず,all-neuralアプローチのロバスト性向上に必要な実践的課題を検討するとともに,実際のミーティングシナリオにおいても,all-neuralアプローチが効果的な音声強調を行い,最先端システムよりも優れることを示す。
関連論文リスト
- Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。
実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文 参考訳(メタデータ) (2024-11-13T06:55:18Z) - A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - A combined approach to the analysis of speech conversations in a contact
center domain [2.575030923243061]
本稿では, インバウンドフローやアウトバウンドフローから抽出した通話記録を扱う, イタリアのコンタクトセンターにおける音声分析プロセスの実験について述べる。
まず,Kaldi フレームワークをベースとした社内音声合成ソリューションの開発について詳述する。
そこで我々は,コールトランスクリプトのセマンティックタグ付けに対する異なるアプローチの評価と比較を行った。
最後に、タグ付け問題にJ48Sと呼ばれる決定木インデューサを適用する。
論文 参考訳(メタデータ) (2022-03-12T10:03:20Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。