論文の概要: Weak Alignment Supervision from Hybrid Model Improves End-to-end ASR
- arxiv url: http://arxiv.org/abs/2311.14835v2
- Date: Thu, 30 Nov 2023 20:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:38:12.556826
- Title: Weak Alignment Supervision from Hybrid Model Improves End-to-end ASR
- Title(参考訳): ハイブリッドモデルからの弱アライメントスーパービジョンによるエンドツーエンドASRの改善
- Authors: Jintao Jiang, Yingbo Gao, Zoltan Tuske
- Abstract要約: 我々は、音声認識のエンドツーエンドモデリングを支援するために、既存のハイブリッドシステムから弱いアライメントの監督を作成する。
次に、導出したアライメントを用いてエンコーダの特定の層にクロスエントロピー損失を生成する。
一般的な1ホットクロスエントロピー損失とは対照的に,ラベル平滑化パラメータを持つクロスエントロピー損失を用いて監督を規則化する。
- 参考スコア(独自算出の注目度): 5.2823268671093775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to create weak alignment supervision from an existing
hybrid system to aid the end-to-end modeling of automatic speech recognition.
Towards this end, we use the existing hybrid ASR system to produce triphone
alignments of the training audios. We then create a cross-entropy loss at a
certain layer of the encoder using the derived alignments. In contrast to the
general one-hot cross-entropy losses, here we use a cross-entropy loss with a
label smoothing parameter to regularize the supervision. As a comparison, we
also conduct the experiments with one-hot cross-entropy losses and CTC losses
with loss weighting. The results show that placing the weak alignment
supervision with the label smoothing parameter of 0.5 at the third encoder
layer outperforms the other two approaches and leads to about 5\% relative WER
reduction on the TED-LIUM 2 dataset over the baseline. We see similar
improvements when applying the method out-of-the-box on a Tagalog end-to-end
ASR system.
- Abstract(参考訳): 本稿では,自動音声認識のエンドツーエンドモデリングを支援するため,既存のハイブリッドシステムから弱いアライメント監督を実現することを目的とする。
この目的に向けて、既存のハイブリッドasrシステムを用いて、トレーニングオーディオの三声アライメントを生成する。
次に、導出したアライメントを用いてエンコーダの特定の層にクロスエントロピー損失を生成する。
一般的な1ホットクロスエントロピー損失とは対照的に,ラベル平滑化パラメータを持つクロスエントロピー損失を用いて監督を規則化する。
比較として,1つのホットクロスエントロピー損失とctc損失の損失重み付け実験を行った。
その結果、第3エンコーダ層に0.5のラベル平滑化パラメータと弱いアライメントを配置すると、他の2つのアプローチよりも優れ、TED-Lium 2データセットに対するWERの相対的な減少率が約5倍になることがわかった。
Tagalog のエンドツーエンド ASR システムにメソッドをアウト・オブ・ザ・ボックスで適用する場合には,同様の改善が期待できる。
関連論文リスト
- Alternating Weak Triphone/BPE Alignment Supervision from Hybrid Model
Improves End-to-End ASR [9.24160000451216]
エンド・ツー・エンドのモデルトレーニングを改善するために,弱い三声/BPEアライメントの監督を交互に行うことを提案する。
トリホンまたはBPEアライメントに基づく弱監視が標準CTC補助損失よりもASR性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-02-23T20:26:54Z) - RomniStereo: Recurrent Omnidirectional Stereo Matching [6.153793254880079]
本稿では,全方向ステレオマッチング (RomniStereo) アルゴリズムを提案する。
我々の最良のモデルは、以前のSOTAベースラインよりも平均MAE値が40.7%向上する。
結果の可視化では, 合成例と実例の両方において, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-01-09T04:06:01Z) - Gait Cycle Reconstruction and Human Identification from Occluded
Sequences [2.198430261120653]
我々は,歩行認識を行う前に,隠蔽されたフレームを入力シーケンスで再構築する有効なニューラルネットワークモデルを提案する。
我々はLSTMネットワークを用いて,前向きと後向きの両方から隠蔽フレームの埋め込みを予測する。
LSTMは平均二乗損失を最小限に抑えるために訓練されるが、核融合ネットワークは、接地構造と再構成されたサンプルの間の画素単位のクロスエントロピー損失を最適化するために訓練される。
論文 参考訳(メタデータ) (2022-06-20T16:04:31Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Class Interference Regularization [7.248447600071719]
対照的な損失は、人物の再識別、顔認証、少人数のショットラーニングのための最先端のパフォーマンスをもたらす。
我々は,新しい,シンプルで効果的な正規化手法であるクラス干渉正規化(CIR)を提案する。
CIRは、負のクラスの平均埋め込みに向かってランダムに移動することで出力特徴を摂動する。
論文 参考訳(メタデータ) (2020-09-04T21:03:32Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - AdaStereo: A Simple and Efficient Approach for Adaptive Stereo Matching [50.06646151004375]
AdaStereoと呼ばれる新しいドメイン適応パイプラインは、ディープステレオマッチングネットワークにマルチレベル表現をアライメントすることを目的としている。
我々のAdaStereoモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のステレオベンチマークで最先端のクロスドメインパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-09T16:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。