論文の概要: GE2E-AC: Generalized End-to-End Loss Training for Accent Classification
- arxiv url: http://arxiv.org/abs/2407.14021v1
- Date: Fri, 19 Jul 2024 04:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 18:53:17.658642
- Title: GE2E-AC: Generalized End-to-End Loss Training for Accent Classification
- Title(参考訳): GE2E-AC: アクセント分類のための汎用エンド・ツー・エンド・ロストレーニング
- Authors: Chihiro Watanabe, Hirokazu Kameoka,
- Abstract要約: 入力音声のアクセント埋め込みやAEを抽出するためにモデルを訓練するGE2E-ACを提案する。
提案したGE2E-ACの有効性を,従来のクロスエントロピーに基づく損失をトレーニングしたベースラインモデルと比較した。
- 参考スコア(独自算出の注目度): 13.266765406714942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accent classification or AC is a task to predict the accent type of an input utterance, and it can be used as a preliminary step toward accented speech recognition and accent conversion. Existing studies have often achieved such classification by training a neural network model to minimize the classification error of the predicted accent label, which can be obtained as a model output. Since we optimize the entire model only from the perspective of classification loss during training time in this approach, the model might learn to predict the accent type from irrelevant features, such as individual speaker identity, which are not informative during test time. To address this problem, we propose a GE2E-AC, in which we train a model to extract accent embedding or AE of an input utterance such that the AEs of the same accent class get closer, instead of directly minimizing the classification loss. We experimentally show the effectiveness of the proposed GE2E-AC, compared to the baseline model trained with the conventional cross-entropy-based loss.
- Abstract(参考訳): アクセント分類またはACは、入力発話のアクセントタイプを予測するタスクであり、アクセント付き音声認識とアクセント変換への予備ステップとして使用できる。
既存の研究では、予測アクセントラベルの分類誤差を最小限に抑えるためにニューラルネットワークモデルを訓練することで、しばしばそのような分類が達成されている。
モデル全体の最適化は,本手法の訓練時間における分類損失の観点からのみ行われるので,各話者識別など無関係な特徴からアクセント型を予測することができる。
この問題を解決するために、GE2E-ACを提案する。このモデルを用いて入力発話のアクセント埋め込みやAEを抽出し、同一のアクセントクラスのAEが近いようにする。
提案したGE2E-ACの有効性を,従来のクロスエントロピーに基づく損失をトレーニングしたベースラインモデルと比較した。
関連論文リスト
- Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - INTapt: Information-Theoretic Adversarial Prompt Tuning for Enhanced
Non-Native Speech Recognition [43.228070238684786]
本稿では,自動音声認識システムにおける表現バイアスを軽減するために,インタプタ(Information Theoretic Adversarial Prompt Tuning)を提案する。
インタプタは,(1)原入力とプロンプト連結入力のアクセント特徴依存性を低減するための逆トレーニング,(2)ASR性能を向上させるためのCTC損失を最小限に抑えるトレーニング,の2つの方法で同時に訓練される。
実験の結果,インタプタはL2英語の性能を向上し,L2アクセントとL1アクセントの特徴的類似性を高めることがわかった。
論文 参考訳(メタデータ) (2023-05-25T13:06:01Z) - Low-resource Accent Classification in Geographically-proximate Settings:
A Forensic and Sociophonetics Perspective [8.002498051045228]
アクセント付き音声認識とアクセント分類は、音声技術における比較的未探索の研究分野である。
近年の深層学習法とトランスフォーマーを用いた事前学習モデルは,両領域で高い性能を達成している。
そこで本研究では,北イングランドの5つの都市品種から抽出した105の話者記録に基づいて,3つの主アクセントモデリング手法と2つの異なる分類器の組み合わせについて検討した。
論文 参考訳(メタデータ) (2022-06-26T01:25:17Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Anomalous Sound Detection Using a Binary Classification Model and Class
Centroids [47.856367556856554]
本稿では, 正規データだけでなく, 他領域の外部データも擬似アノマラス音響データとして用いた二分分類モデルを提案する。
また,2値分類モデルをさらに改善するために,異常音データの追加の有効性についても検討した。
論文 参考訳(メタデータ) (2021-06-11T03:35:06Z) - Streaming end-to-end speech recognition with jointly trained neural
feature enhancement [20.86554979122057]
そこで本研究では,MoCha(Motonic Chunkwise Attention)を用いたストリーミングエンドツーエンド音声認識モデルを提案する。
GAEF(Gradual Application of Enhanced Features)とGREL(Gradual Reduction of Enhanced Loss)の2つのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2021-05-04T02:25:41Z) - Multi-Accent Adaptation based on Gate Mechanism [35.76889921807408]
アクセント特異的のトップ層とゲート機構(AST-G)を用いてマルチアクセント適応を実現する。
実世界の応用では、事前に推論のためのアクセントカテゴリーラベルを得ることはできない。
アクセントラベル予測が不正確である可能性があるため、アクセント固有の適応よりも性能が劣る。
論文 参考訳(メタデータ) (2020-11-05T11:58:36Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。