論文の概要: Alternating Weak Triphone/BPE Alignment Supervision from Hybrid Model
Improves End-to-End ASR
- arxiv url: http://arxiv.org/abs/2402.15594v1
- Date: Fri, 23 Feb 2024 20:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:48:37.992951
- Title: Alternating Weak Triphone/BPE Alignment Supervision from Hybrid Model
Improves End-to-End ASR
- Title(参考訳): ハイブリッドモデルによるWak Triphone/BPEアライメントの交互化による終端ASRの改善
- Authors: Jintao Jiang, Yingbo Gao, Mohammad Zeineldeen, Zoltan Tuske
- Abstract要約: エンド・ツー・エンドのモデルトレーニングを改善するために,弱い三声/BPEアライメントの監督を交互に行うことを提案する。
トリホンまたはBPEアライメントに基づく弱監視が標準CTC補助損失よりもASR性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 9.24160000451216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, alternating weak triphone/BPE alignment supervision is
proposed to improve end-to-end model training. Towards this end, triphone and
BPE alignments are extracted using a pre-existing hybrid ASR system. Then,
regularization effect is obtained by cross-entropy based intermediate auxiliary
losses computed on such alignments at a mid-layer representation of the encoder
for triphone alignments and at the encoder for BPE alignments. Weak supervision
is achieved through strong label smoothing with parameter of 0.5. Experimental
results on TED-LIUM 2 indicate that either triphone or BPE alignment based weak
supervision improves ASR performance over standard CTC auxiliary loss.
Moreover, their combination lowers the word error rate further. We also
investigate the alternation of the two auxiliary tasks during model training,
and additional performance gain is observed. Overall, the proposed techniques
result in over 10% relative error rate reduction over a CTC-regularized
baseline system.
- Abstract(参考訳): 本稿では、エンドツーエンドのモデルトレーニングを改善するために、弱いトリホン/BPEアライメントの監督を交互に行うことを提案する。
この目的のために、既存のハイブリッドASRシステムを用いて、トリフォンとBPEアライメントを抽出する。
そして、これらのアライメント上で計算されたクロスエントロピーに基づく中間補助損失を、三調アライメント用エンコーダ及びBPEアライメント用エンコーダの中間層表現により正規化効果を得る。
弱い監督は、0.5のパラメータで強いラベル平滑化によって達成される。
TED-Lium 2の実験結果から, トリフォンまたはBPEアライメントに基づく弱監視が標準CTC補助損失よりもASR性能を向上させることが示された。
さらに、それらの組み合わせは単語エラー率をさらに下げる。
また,モデルトレーニング中の補助作業の交代について検討し,さらなる性能向上について検討した。
総じて,提案手法は,ctc正規化ベースラインシステム上で10%以上の誤差率削減を実現する。
関連論文リスト
- Joint Unsupervised and Supervised Training for Automatic Speech
Recognition via Bilevel Optimization [73.98386682604122]
両レベル共同教師なし・教師付き訓練(BL-JUST)と呼ばれる自動音声認識(ASR)タスクのための音響モデルのトレーニングのための,バイレベル最適化に基づく新たなトレーニング手法を提案する。
BL-JUSTは、教師なしの損失と教師なしの損失で下層と上層を最適化し、最近のペナルティベースの二レベル最適化の進歩を利用して、安価で複雑なASR問題と厳密な収束を保証する。
論文 参考訳(メタデータ) (2024-01-13T05:01:47Z) - Weak Alignment Supervision from Hybrid Model Improves End-to-end ASR [5.2823268671093775]
我々は、音声認識のエンドツーエンドモデリングを支援するために、既存のハイブリッドシステムから弱いアライメントの監督を作成する。
次に、導出したアライメントを用いてエンコーダの特定の層にクロスエントロピー損失を生成する。
一般的な1ホットクロスエントロピー損失とは対照的に,ラベル平滑化パラメータを持つクロスエントロピー損失を用いて監督を規則化する。
論文 参考訳(メタデータ) (2023-11-24T20:14:28Z) - Learning Repeatable Speech Embeddings Using An Intra-class Correlation
Regularizer [16.716653844774374]
クラス内相関係数(ICC)を用いて埋め込みの再現性を評価する。
我々は、より高い繰り返し性を持つ埋め込みを生成するために、ディープニューラルネットワークを誘導する対照的な損失を補うために、新しい正則化器であるICC正則化器を提案する。
我々は、ICC正規化器を実装し、話者検証、音声スタイル変換、およびディフォニック音声検出のための臨床応用の3つの音声タスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T23:21:46Z) - Deep Autoencoder-based Z-Interference Channels with Perfect and
Imperfect CSI [14.04355073946466]
本稿では,Z-Interference Channel (ZIC) 上でのエンド・ツー・エンド・エンド通信のためのDeep Autoencoder (DAE) ベースの構造について述べる。
提案した構造は、2つのエンコーダ/デコーダペアを共同で最適化し、干渉強度に基づいてそれらの形状を動的に適応させてビット誤り率(BER)を最小化する干渉対応コンステレーションを生成する。
DAEには、平均的な電力制約を保証し、構造が一様でない星座を生成できるように、インフェーズ/クアクラチャ相(I/Q)の電力割り当て層が導入された。
論文 参考訳(メタデータ) (2023-10-23T15:23:42Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - ADC-Net: An Open-Source Deep Learning Network for Automated Dispersion
Compensation in Optical Coherence Tomography [0.0]
本研究は,光コヒーレンストモグラフィ(OCT)における自動分散補償(ADC-Net)のためのディープラーニングネットワークを開発することを目的とする。
ADC-Netは、エンコーダ-デコーダパイプラインを使用する再設計されたUNetアーキテクチャに基づいている。
マルチスケール(MS-SSIM)で計算されたピーク信号対雑音比(PSNR)と構造類似度指標(MS-SSIM)の2つの数値パラメータを用いて,ADC-Netの性能を客観的に評価した。
論文 参考訳(メタデータ) (2022-01-29T17:23:46Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Reconcile Prediction Consistency for Balanced Object Detection [10.61438063305309]
分類枝と局所化枝の最適化を調和させるハーモニック損失を提案する。
ハーモニック・ロスにより、これらの2つのブランチはトレーニング中にお互いを監督し、促進することができる。
トレーニング段階において, ローカライゼーション損失が外れ値に支配されるのを防止するため, 異なるIoUレベルの試料の局所化損失の重みを調和させるために, ハーモニックIoU損失を提案する。
論文 参考訳(メタデータ) (2021-08-24T15:52:11Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。