Fugu-MT 論文翻訳(概要): Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation

論文の概要: Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation

arxiv url: http://arxiv.org/abs/2005.08575v5
Date: Mon, 3 May 2021 09:33:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 00:16:19.842011
Title: Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation
Title（参考訳）: Audio ALBERT: 音声表現の自己教師型学習のためのLite BERT
Authors: Po-Han Chi, Pei-Hung Chung, Tsung-Han Wu, Chun-Cheng Hsieh, Yen-Hao Chen, Shang-Wen Li, Hung-yi Lee
Abstract要約: 本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
参考スコア（独自算出の注目度）: 51.37980448183019
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For self-supervised speech processing, it is crucial to use pretrained models as speech representation extractors. In recent works, increasing the size of the model has been utilized in acoustic model training in order to achieve better performance. In this paper, we propose Audio ALBERT, a lite version of the self-supervised speech representation model. We use the representations with two downstream tasks, speaker identification, and phoneme classification. We show that Audio ALBERT is capable of achieving competitive performance with those huge models in the downstream tasks while utilizing 91\% fewer parameters. Moreover, we use some simple probing models to measure how much the information of the speaker and phoneme is encoded in latent representations. In probing experiments, we find that the latent representations encode richer information of both phoneme and speaker than that of the last layer.
Abstract（参考訳）: 自己教師あり音声処理では,事前学習したモデルを音声表現抽出器として用いることが重要である。近年,音響モデルの訓練において,モデルのサイズを増大させることにより,性能の向上が図られている。本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。私たちは、話者識別と音素分類という2つの下流タスクで表現を利用する。この結果から,albert は 91\% のパラメータを活用しながら,下流タスクにおける巨大モデルとの競合性能を達成できることがわかった。さらに,話者と音素の情報量が潜時表現にどの程度符号化されているかを簡易な探索モデルを用いて測定する。探索実験では、潜在表現が最後の層よりも音素と話者のリッチな情報をエンコードしていることがわかった。

関連論文リスト

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文参考訳（メタデータ） (2023-08-10T17:55:13Z)
Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文参考訳（メタデータ） (2023-07-30T21:20:58Z)
AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文参考訳（メタデータ） (2023-03-29T07:24:28Z)
BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文参考訳（メタデータ） (2022-12-18T10:41:55Z)
Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文参考訳（メタデータ） (2022-03-30T21:42:00Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)
Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。 AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文参考訳（メタデータ） (2021-10-14T12:32:40Z)
GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2021-06-29T08:15:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。