論文の概要: End-to-end Neural Diarization: From Transformer to Conformer
- arxiv url: http://arxiv.org/abs/2106.07167v1
- Date: Mon, 14 Jun 2021 05:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:12:04.522280
- Title: End-to-end Neural Diarization: From Transformer to Conformer
- Title(参考訳): エンドツーエンドのニューラルネットワークダイアリゼーション:transformerからconformerへ
- Authors: Yi Chieh Liu and Eunjung Han and Chul Lee and Andreas Stolcke
- Abstract要約: 本稿では,Conformerをベースとしたニューラルダイアリゼーションシステムを提案する。
シミュレーションデータと実話者行動のミスマッチを時間統計量で定量化する。
EENDトレーニングでシミュレーションデータと実データを組み合わせることで、ミスマッチをさらに軽減します。
- 参考スコア(独自算出の注目度): 15.573163409846858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new end-to-end neural diarization (EEND) system that is based on
Conformer, a recently proposed neural architecture that combines convolutional
mappings and Transformer to model both local and global dependencies in speech.
We first show that data augmentation and convolutional subsampling layers
enhance the original self-attentive EEND in the Transformer-based EEND, and
then Conformer gives an additional gain over the Transformer-based EEND.
However, we notice that the Conformer-based EEND does not generalize as well
from simulated to real conversation data as the Transformer-based model. This
leads us to quantify the mismatch between simulated data and real speaker
behavior in terms of temporal statistics reflecting turn-taking between
speakers, and investigate its correlation with diarization error. By mixing
simulated and real data in EEND training, we mitigate the mismatch further,
with Conformer-based EEND achieving 24% error reduction over the baseline
SA-EEND system, and 10% improvement over the best augmented Transformer-based
system, on two-speaker CALLHOME data.
- Abstract(参考訳): 我々は、畳み込みマッピングとTransformerを組み合わせて音声の局所的およびグローバル的依存関係をモデル化する、Conformerに基づく新しいエンドツーエンドニューラルダイアリゼーション(EEND)システムを提案する。
まず、データ拡張と畳み込みサブサンプリングレイヤにより、TransformerベースのEENDにおけるオリジナルの自己注意型EENDが向上し、ConformerはTransformerベースのEENDよりもさらに向上することを示す。
しかし,コンフォーメータベースeendは,トランスフォーメータベースモデルのようにシミュレーションデータから実会話データへの一般化には至っていない。
これにより,話者間のターンテイクを反映する時間統計量の観点から,シミュレーションデータと実話者行動のミスマッチを定量化し,ダイアリゼーション誤差との関連性を検討することができる。
EENDトレーニングにおけるシミュレーションデータと実データを組み合わせることで、さらにミスマッチを緩和し、コンバータベースのEENDはベースラインSA-EENDシステムに対して24%のエラー低減を実現し、2話者CALLHOMEデータ上で最高の拡張トランスフォーマベースのシステムよりも10%改善した。
関連論文リスト
- End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Improving Transformer-based Networks With Locality For Automatic Speaker
Verification [40.06788577864032]
話者埋め込み抽出のためのトランスフォーマーベースアーキテクチャが検討されている。
本研究では,2方向の局所性モデルを用いてトランスフォーマーを改良する。
本稿では,VoxCelebデータセットと大規模Microsoft内部多言語(MS-internal)データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-17T01:04:51Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Causal Transformer for Estimating Counterfactual Outcomes [18.640006398066188]
多くのアプリケーションでは、観測データから時間とともに反現実的な結果を予測することが重要となる。
我々は、時間とともに反現実的な結果を予測するための新しい因果変換器を開発した。
私たちのモデルは、時間によって異なる共同設立者間の複雑な長距離依存関係をキャプチャするために特別に設計されています。
論文 参考訳(メタデータ) (2022-04-14T22:40:09Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。