論文の概要: Transducer Consistency Regularization for Speech to Text Applications
- arxiv url: http://arxiv.org/abs/2410.07491v2
- Date: Fri, 08 Nov 2024 23:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:10.483876
- Title: Transducer Consistency Regularization for Speech to Text Applications
- Title(参考訳): テキストアプリケーションへの音声に対するトランスデューサの整合性正規化
- Authors: Cindy Tseng, Yun Tang, Vijendra Raj Apsingekar,
- Abstract要約: 本稿では,トランスデューサモデルの整合正則化手法であるTransducer Consistency Regularization (TCR)を提案する。
作業確率を利用してトランスデューサ出力分布に異なる重みを与えるので、オラクルアライメントに近いアライメントのみがモデル学習に寄与する。
提案手法は他の整合正規化実装よりも優れていることを示すとともに,textscLibrispeechデータセットの強いベースラインと比較して,単語誤り率(WER)を4.3%削減できることを示した。
- 参考スコア(独自算出の注目度): 4.510630624936377
- License:
- Abstract: Consistency regularization is a commonly used practice to encourage the model to generate consistent representation from distorted input features and improve model generalization. It shows significant improvement on various speech applications that are optimized with cross entropy criterion. However, it is not straightforward to apply consistency regularization for the transducer-based approaches, which are widely adopted for speech applications due to the competitive performance and streaming characteristic. The main challenge is from the vast alignment space of the transducer optimization criterion and not all the alignments within the space contribute to the model optimization equally. In this study, we present Transducer Consistency Regularization (TCR), a consistency regularization method for transducer models. We apply distortions such as spec augmentation and dropout to create different data views and minimize the distribution difference. We utilize occupational probabilities to give different weights on transducer output distributions, thus only alignments close to oracle alignments would contribute to the model learning. Our experiments show the proposed method is superior to other consistency regularization implementations and could effectively reduce word error rate (WER) by 4.3\% relatively comparing with a strong baseline on the \textsc{Librispeech} dataset.
- Abstract(参考訳): 一貫性の正規化は、モデルを歪んだ入力特徴から一貫した表現を生成し、モデルの一般化を改善するために一般的に用いられるプラクティスである。
クロスエントロピー基準に最適化された様々な音声アプリケーションにおいて、顕著な改善が示される。
しかし、競合性能とストリーミング特性のため、音声アプリケーションに広く採用されているトランスデューサベースのアプローチに対して、一貫性の正則化を適用することは容易ではない。
主な課題は、トランスデューサ最適化基準の広大なアライメント空間からであり、空間内のすべてのアライメントがモデル最適化に等しく寄与するわけではない。
本研究では,トランスデューサモデルの整合正則化手法であるTransducer Consistency Regularization (TCR)を提案する。
仕様拡張やドロップアウトなどの歪みを適用して、異なるデータビューを作成し、分散差を最小限にする。
作業確率を利用してトランスデューサ出力分布に異なる重みを与えるので、オラクルアライメントに近いアライメントのみがモデル学習に寄与する。
実験の結果,提案手法は他の整合正規化実装よりも優れており,textsc{Librispeech}データセットの強いベースラインと比較して,単語誤り率(WER)を4.3 %削減できることがわかった。
関連論文リスト
- Decoding-time Realignment of Language Models [44.54462397717971]
そこで本研究では, 整列モデルの正則化強度をリトレーニングせずに探索し, 評価する手法を提案する。
DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
論文 参考訳(メタデータ) (2024-02-05T13:31:28Z) - On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。
正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。
制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文 参考訳(メタデータ) (2023-07-08T03:39:22Z) - Conditional Deformable Image Registration with Spatially-Variant and
Adaptive Regularization [2.3419031955865517]
条件付き空間適応型インスタンス正規化(CSAIN)に基づく学習ベース登録手法を提案する。
実験の結果,提案手法は空間変動および適応正則化を達成しつつ,ベースラインアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-19T16:12:06Z) - Toward Learning Robust and Invariant Representations with Alignment
Regularization and Data Augmentation [76.85274970052762]
本論文はアライメント正則化の選択肢の増大を動機としている。
我々は、ロバスト性および不変性の次元に沿って、いくつかの人気のある設計選択のパフォーマンスを評価する。
我々はまた、現実的と考える仮定の下で経験的な研究を補完するために、アライメント正則化の挙動を正式に分析する。
論文 参考訳(メタデータ) (2022-06-04T04:29:19Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。