論文の概要: Acoustic models of Brazilian Portuguese Speech based on Neural
Transformers
- arxiv url: http://arxiv.org/abs/2312.09265v1
- Date: Thu, 14 Dec 2023 14:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 18:12:11.387210
- Title: Acoustic models of Brazilian Portuguese Speech based on Neural
Transformers
- Title(参考訳): ニューラルトランスフォーマによるブラジルポルトガル語音声の音響モデル
- Authors: Marcelo Matheus Gauy and Marcelo Finger
- Abstract要約: 我々はトランスフォーマーニューラルネットワークを用いてブラジルポルトガル語音声の音響モデルを構築した。
トレーニング済みのトランスフォーマーニューラルネットワークを,呼吸不全の検出,性別認識,年齢グループ分類といったタスクで微調整する。
呼吸不全検出の成績は,これまでに報告された最高の結果を得た結果,このような音響モデルがバイオマーカーによる音声・バイオマーカーアプローチの有望なツールであることを示す。
- 参考スコア(独自算出の注目度): 1.9193698747112384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An acoustic model, trained on a significant amount of unlabeled data,
consists of a self-supervised learned speech representation useful for solving
downstream tasks, perhaps after a fine-tuning of the model in the respective
downstream task. In this work, we build an acoustic model of Brazilian
Portuguese Speech through a Transformer neural network. This model was
pretrained on more than $800$ hours of Brazilian Portuguese Speech, using a
combination of pretraining techniques. Using a labeled dataset collected for
the detection of respiratory insufficiency in Brazilian Portuguese speakers, we
fine-tune the pretrained Transformer neural network on the following tasks:
respiratory insufficiency detection, gender recognition and age group
classification. We compare the performance of pretrained Transformers on these
tasks with that of Transformers without previous pretraining, noting a
significant improvement. In particular, the performance of respiratory
insufficiency detection obtains the best reported results so far, indicating
this kind of acoustic model as a promising tool for speech-as-biomarker
approach. Moreover, the performance of gender recognition is comparable to the
state of the art models in English.
- Abstract(参考訳): かなりの量のラベルのないデータに基づいて訓練された音響モデルは、下流タスクを解くのに有用な自己教師付き学習された音声表現から構成される。
本研究では,トランスフォーマーニューラルネットワークを用いてブラジルのポルトガル語音声の音響モデルを構築する。
このモデルは、事前訓練技術を組み合わせて、800ドル以上のブラジルポルトガル語音声で事前訓練された。
ブラジルポルトガル語話者の呼吸不全検出のために収集されたラベル付きデータセットを用いて, トレーニング済みトランスフォーマーニューラルネットワークを, 呼吸不全検出, 性別認識, 年齢分類の順に微調整した。
これらのタスクにおけるプリトレーニングトランスの性能と,前回のプリトレーニングを行わないトランスの性能を比較した。
特に呼吸不全検出の性能は, これまでに報告された最良の結果を得ることができ, 音声・生体マーカーアプローチの有望なツールとして, この種の音響モデルを示している。
さらに、性別認識のパフォーマンスは、英語の芸術モデルの状態に匹敵する。
関連論文リスト
- ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - EEG based Continuous Speech Recognition using Transformers [13.565270550358397]
エンド・ツー・エンド・エンド・トランスフォーマーを用いた自動音声認識(ASR)モデルを用いて,脳波特徴量を用いた連続音声認識について検討した。
その結果, トランスフォーマーを用いたモデルでは, 繰り返しニューラルネットワーク(RNN)に基づくシーケンス・ツー・シーケンス脳波モデルと比較して, トレーニングの高速化が示されている。
論文 参考訳(メタデータ) (2019-12-31T08:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。