論文の概要: Exploration of Language Dependency for Japanese Self-Supervised Speech
Representation Models
- arxiv url: http://arxiv.org/abs/2305.05201v1
- Date: Tue, 9 May 2023 06:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 19:51:05.890883
- Title: Exploration of Language Dependency for Japanese Self-Supervised Speech
Representation Models
- Title(参考訳): 日本語自己監督音声表現モデルにおける言語依存の探索
- Authors: Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka
- Abstract要約: 自己教師付き学習(SSL)はモノリンガルだけでなく、言語横断的な設定でも劇的に成功している。
本稿では,単言語モデルとの比較において,言語間モデルの有効性について検討する。
日本語で収集されたラベルのないデータは、何万時間もの英語および/または多言語データで事前訓練された言語間モデルに匹敵する性能を達成するために、どの程度のラベル付きデータが必要であるかを検討する。
- 参考スコア(独自算出の注目度): 18.22157315310462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has been dramatically successful not only in
monolingual but also in cross-lingual settings. However, since the two settings
have been studied individually in general, there has been little research
focusing on how effective a cross-lingual model is in comparison with a
monolingual model. In this paper, we investigate this fundamental question
empirically with Japanese automatic speech recognition (ASR) tasks. First, we
begin by comparing the ASR performance of cross-lingual and monolingual models
for two different language tasks while keeping the acoustic domain as identical
as possible. Then, we examine how much unlabeled data collected in Japanese is
needed to achieve performance comparable to a cross-lingual model pre-trained
with tens of thousands of hours of English and/or multilingual data. Finally,
we extensively investigate the effectiveness of SSL in Japanese and demonstrate
state-of-the-art performance on multiple ASR tasks. Since there is no
comprehensive SSL study for Japanese, we hope this study will guide Japanese
SSL research.
- Abstract(参考訳): 自己教師付き学習(ssl)は、単言語だけでなく、言語横断環境でも劇的に成功している。
しかし、この2つの設定は一般に個別に研究されているため、モノリンガルモデルと比較した場合の言語間モデルの有効性についてはほとんど研究されていない。
本稿では,日本語自動音声認識(asr)タスクを用いて,この基本課題を実証的に検討する。
まず,音響領域を可能な限り同一に保ちながら,言語横断型および単言語型モデルのasr性能を2つの異なる言語タスクで比較する。
そこで本研究では,何万時間にも及ぶ英語データや多言語データで事前学習された言語間比較モデルと同等の性能を実現するために,日本語で収集されたラベルなしデータについて検討する。
最後に,日本語におけるSSLの有効性を広く検討し,複数のASRタスクにおける最先端性能を示す。
日本語のSSL研究は包括的ではないので,本研究が日本のSSL研究を導くことを願っている。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters [31.705705891482594]
低音源言語における音声認識(ASR)の性能向上を目的とした,複数言語を対象とした単一音響モデルの訓練について検討した。
入力言語を知らずに1つの関節モデルから多言語学習の3つの変種を、この情報を用いて複数の頭部に比較する。
複数の言語でのASRモデルの多言語学習により、認識性能、特に低リソース言語での認識性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-06T18:43:38Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。