論文の概要: Augmenting Transformer-Transducer Based Speaker Change Detection With
Token-Level Training Loss
- arxiv url: http://arxiv.org/abs/2211.06482v1
- Date: Fri, 11 Nov 2022 21:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 20:19:34.007118
- Title: Augmenting Transformer-Transducer Based Speaker Change Detection With
Token-Level Training Loss
- Title(参考訳): トーケンレベル学習損失を用いた変圧器を用いた話者変化検出
- Authors: Guanlong Zhao, Quan Wang, Han Lu, Yiling Huang, Ignacio Lopez Moreno
- Abstract要約: 本稿では,Transformer-Transducer (T-T) に基づく話者変化検出(SCD) の性能を向上させる新しいトークンベースのトレーニング戦略を提案する。
学習データに話者が変化しているため、従来のT-TベースのSCDモデル損失は、準最適検出精度をもたらす。
- 参考スコア(独自算出の注目度): 15.304831835680847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we propose a novel token-based training strategy that improves
Transformer-Transducer (T-T) based speaker change detection (SCD) performance.
The conventional T-T based SCD model loss optimizes all output tokens equally.
Due to the sparsity of the speaker changes in the training data, the
conventional T-T based SCD model loss leads to sub-optimal detection accuracy.
To mitigate this issue, we use a customized edit-distance algorithm to estimate
the token-level SCD false accept (FA) and false reject (FR) rates during
training and optimize model parameters to minimize a weighted combination of
the FA and FR, focusing the model on accurately predicting speaker changes. We
also propose a set of evaluation metrics that align better with commercial use
cases. Experiments on a group of challenging real-world datasets show that the
proposed training method can significantly improve the overall performance of
the SCD model with the same number of parameters.
- Abstract(参考訳): 本稿では,トランスフォーマトランスデューサ(t-t)に基づく話者変化検出(scd)性能を向上させるトークンベーストレーニング手法を提案する。
従来のT-TベースのSCDモデル損失は、全ての出力トークンを等しく最適化する。
学習データに話者が変化しているため、従来のT-TベースのSCDモデル損失は、準最適検出精度をもたらす。
この問題を緩和するために、カスタマイズされた編集距離アルゴリズムを用いて、訓練中のトークンレベルのSCD偽受け入れ(FA)と偽拒絶(FR)率を推定し、モデルパラメータを最適化し、FAとFRの重み付けを最小化し、話者変化を正確に予測することに集中する。
また,商用ユースケースに合致する評価指標のセットを提案する。
課題のある実世界のデータセットに対する実験により、提案手法は、同じ数のパラメータでSCDモデル全体の性能を大幅に改善できることが示された。
関連論文リスト
- Test-time adaptation for geospatial point cloud semantic segmentation with distinct domain shifts [6.80671668491958]
テスト時間適応(TTA)は、ソースデータへのアクセスや追加のトレーニングなしに、推論段階でラベル付けされていないデータに事前訓練されたモデルの直接適応を可能にする。
本稿では,3つの領域シフトパラダイムを提案する。光グラムから空気中LiDAR,空気中LiDAR,合成-移動レーザー走査である。
実験の結果,分類精度は最大20%mIoUに向上し,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-08T15:40:28Z) - Challenging Gradient Boosted Decision Trees with Tabular Transformers for Fraud Detection at Booking.com [1.6702285371066043]
自己監視学習(SSL)によって強化されたトランスフォーマーベースのニューラルネットワークは、さまざまなドメインで前例のないパフォーマンスを示している。
本稿では,電子商取引における典型的な課題である不正検出において,表型変換器を用いたGBDTに挑戦することを目的とする。
我々の手法はトランスフォーマーの能力を利用して、SSLを使ってすべての利用可能なデータを使って転送可能な表現を学習する。
提案手法は、平均精度(AP)スコアのかなりのマージンで、調整されたGBDTよりも優れている。
論文 参考訳(メタデータ) (2024-05-22T14:38:48Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR [54.23941663326509]
話者の頻繁な変化は、話者の変化を予測するのを難しくする。
境界対応型直列出力訓練(BA-SOT)を提案する。
オリジナルのSOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減している。
論文 参考訳(メタデータ) (2023-05-23T06:08:13Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - Remote Sensing Change Detection With Transformers Trained from Scratch [62.96911491252686]
トランスフォーマーベースの変更検出(CD)アプローチでは、大規模なイメージ分類でトレーニングされた事前トレーニングモデルを使用するか、別のCDデータセットで最初の事前トレーニングを頼りにしてから、ターゲットのベンチマークを微調整する。
我々は、4つの公開ベンチマークにおいて、スクラッチからトレーニングされながら最先端のパフォーマンスを実現するトランスフォーマーを用いたエンドツーエンドCDアプローチを開発した。
論文 参考訳(メタデータ) (2023-04-13T17:57:54Z) - Fast and accurate factorized neural transducer for text adaption of
end-to-end speech recognition models [23.21666928497697]
テキストのみの適応データに対するFNT(Facterized Neural Transducer)の適応性の向上は、標準のニューラルトランスデューサモデルと比較して精度の低下を招いた。
これらのアプローチを組み合わせることで、標準のFNTモデルから比較的単語エラー率を9.48%削減できる。
論文 参考訳(メタデータ) (2022-12-05T02:52:21Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。