論文の概要: Mutual Learning of Single- and Multi-Channel End-to-End Neural
Diarization
- arxiv url: http://arxiv.org/abs/2210.03459v1
- Date: Fri, 7 Oct 2022 11:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:44:15.620741
- Title: Mutual Learning of Single- and Multi-Channel End-to-End Neural
Diarization
- Title(参考訳): 単一チャネルと複数チャネルの終端ニューラルネットワークダイアリゼーションの相互学習
- Authors: Shota Horiguchi, Yuki Takashima, Shinji Watanabe, Paola Garcia
- Abstract要約: 本稿では、話者ダイアリゼーションに焦点を当て、上記の双方向知識伝達を交互に行うことを提案する。
単一チャネルとマルチチャネルの両方の入力を処理できるエンドツーエンドのニューラルダイアリゼーションモデルを導入する。
2つの話者データによる実験結果から,提案手法は単一話者と複数話者のダイアリゼーション性能を相互に向上することが示された。
- 参考スコア(独自算出の注目度): 34.65357110940456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the high performance of multi-channel speech processing, we can use
the outputs from a multi-channel model as teacher labels when training a
single-channel model with knowledge distillation. To the contrary, it is also
known that single-channel speech data can benefit multi-channel models by
mixing it with multi-channel speech data during training or by using it for
model pretraining. This paper focuses on speaker diarization and proposes to
conduct the above bi-directional knowledge transfer alternately. We first
introduce an end-to-end neural diarization model that can handle both single-
and multi-channel inputs. Using this model, we alternately conduct i) knowledge
distillation from a multi-channel model to a single-channel model and ii)
finetuning from the distilled single-channel model to a multi-channel model.
Experimental results on two-speaker data show that the proposed method mutually
improved single- and multi-channel speaker diarization performances.
- Abstract(参考訳): マルチチャネル音声処理の高性能化により,知識蒸留による単一チャネルモデルの訓練において,教師ラベルとしてマルチチャネルモデルからの出力を利用できる。
それとは対照的に、訓練中にマルチチャネル音声データと混合したり、モデル事前訓練に使用することで、シングルチャネル音声データがマルチチャネルモデルに利益をもたらすことも知られている。
本稿では,話者ダイアリゼーションに着目し,上記の双方向知識伝達を交互に行うことを提案する。
まず、シングルチャネルとマルチチャネルの両方の入力を処理できるエンドツーエンドのニューラルダイアリゼーションモデルを導入する。
このモデルを使って 交互に
一 多チャンネルモデルから一チャンネルモデルへの知識蒸留及び
二 蒸留単一チャネルモデルから多チャンネルモデルへの微調整
2つの話者データによる実験結果から,提案手法は単一話者と複数話者のダイアリゼーション性能を相互に向上することが示された。
関連論文リスト
- Self-Supervised Learning for Multi-Channel Neural Transducer [3.045851438458641]
本稿では,wav2vec 2.0 フレームワークに基づくマルチチャネルエンドツーエンド ASR モデルの自己教師型学習手法について検討する。
我々は,遠距離フィールド内データセットの事前学習を行わないモデルと比較して,文字誤り率を66%削減した。
論文 参考訳(メタデータ) (2024-08-06T04:12:31Z) - End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder
and Input Feature Analysis [0.0]
本稿では,Conformerベースのエンコーダと多フレームのクロスチャネルアテンションと,話者対応のTransformerベースのデコーダを組み合わせた,エンドツーエンドのマルチチャネル話者分散自動音声認識(MC-SA-ASR)システムを提案する。
論文 参考訳(メタデータ) (2023-10-16T06:40:18Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Attention-based Neural Beamforming Layers for Multi-channel Speech
Recognition [17.009051842682677]
畳み込みニューラルネットワークとビームフォーミングに注目した2D Conv-Attentionモジュールを提案する。
入力チャネル間の相関関係を明確にモデル化するために、自己およびクロスアテンションを適用します。
その結果,ベースラインニューラルビームフォーマに対する提案モデルによるwerの3.8%の相対的改善が認められた。
論文 参考訳(メタデータ) (2021-05-12T19:32:24Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Fully Learnable Front-End for Multi-Channel Acoustic Modeling using
Semi-Supervised Learning [20.97480659815297]
遠距離場自動音声認識のための完全学習可能なマルチチャネル音響モデルを訓練する。
学生は多チャンネル特徴抽出層と上位分類層を共同で訓練した。
ビームフォーマを用いたマルチチャネルモデルと比較して,事前学習により単語誤り率が10.7%向上することがわかった。
論文 参考訳(メタデータ) (2020-02-01T02:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。