論文の概要: Utterance Clustering Using Stereo Audio Channels
- arxiv url: http://arxiv.org/abs/2009.05076v2
- Date: Tue, 21 Sep 2021 00:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 04:19:11.076051
- Title: Utterance Clustering Using Stereo Audio Channels
- Title(参考訳): ステレオオーディオチャンネルを用いた発話クラスタリング
- Authors: Yingjun Dong, Neil G. MacLaren, Yiding Cao, Francis J. Yammarino,
Shelley D. Dionne, Michael D. Mumford, Shane Connelly, Hiroki Sayama, and
Gregory A. Ruark
- Abstract要約: 本研究では,マルチチャンネル(ステレオ)音声信号を処理することで,発話クラスタリングの性能を向上させることを目的とする。
複数対人ディスカッションセッションにおける実録音実験により,提案手法は従来手法よりも有意に優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.3656826837859034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Utterance clustering is one of the actively researched topics in audio signal
processing and machine learning. This study aims to improve the performance of
utterance clustering by processing multichannel (stereo) audio signals.
Processed audio signals were generated by combining left- and right-channel
audio signals in a few different ways and then extracted embedded features
(also called d-vectors) from those processed audio signals. This study applied
the Gaussian mixture model for supervised utterance clustering. In the training
phase, a parameter sharing Gaussian mixture model was conducted to train the
model for each speaker. In the testing phase, the speaker with the maximum
likelihood was selected as the detected speaker. Results of experiments with
real audio recordings of multi-person discussion sessions showed that the
proposed method that used multichannel audio signals achieved significantly
better performance than a conventional method with mono audio signals in more
complicated conditions.
- Abstract(参考訳): 発話クラスタリングは、音声信号処理と機械学習において活発に研究されているトピックの1つである。
本研究では,マルチチャンネル(ステレオ)音声信号を処理することで,発話クラスタリングの性能を向上させることを目的とする。
処理されたオーディオ信号は、左チャネルと右チャネルのオーディオ信号を数種類組み合わせて生成し、その処理されたオーディオ信号から組込み特徴(dベクターとも呼ばれる)を抽出した。
本研究では,教師付き発話クラスタリングにガウス混合モデルを適用した。
学習段階では、各話者のモデルを訓練するためにパラメータ共有ガウス混合モデルが実行された。
テストフェーズでは,最大確率の話者を検出話者として選択した。
マルチパーソン・ディスカッションセッションにおける実音声録音実験の結果, 提案手法は, より複雑な条件下でのモノラル音声信号を用いた従来の手法に比べて, はるかに優れた性能を示した。
関連論文リスト
- Audio-Visual Talker Localization in Video for Spatial Sound Reproduction [3.2472293599354596]
本研究では,ビデオ中のアクティブ話者を検出し,検出する。
互いに補完する2つのモダリティの役割を見出した。
今後の調査では、ノイズの多い高残響環境下でのモデルの堅牢性を評価する予定である。
論文 参考訳(メタデータ) (2024-06-01T16:47:07Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method [67.24600975813419]
単一深層ニューラルネットワークを用いて任意のサンプリング周波数を処理できる畳み込み層を提案する。
提案層の導入により,従来の音源分離モデルが未知のサンプリング周波数でも一貫して動作できることを示した。
論文 参考訳(メタデータ) (2021-05-10T02:33:42Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。