論文の概要: ProsAudit, a prosodic benchmark for self-supervised speech models
- arxiv url: http://arxiv.org/abs/2302.12057v3
- Date: Thu, 1 Jun 2023 08:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 00:14:58.176757
- Title: ProsAudit, a prosodic benchmark for self-supervised speech models
- Title(参考訳): 自己教師型音声モデルのための韻律ベンチマークProsAudit
- Authors: Maureen de Seyssel, Marvin Lavechin, Hadrien Titeux, Arthur Thomas,
Gwendal Virlet, Andrea Santos Revilla, Guillaume Wisniewski, Bogdan Ludusan,
Emmanuel Dupoux
- Abstract要約: ProsAuditは、自己教師付き学習(SSL)音声モデルにおける構造的韻律的知識を評価するためのベンチマークである。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
- 参考スコア(独自算出の注目度): 14.198508548718676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ProsAudit, a benchmark in English to assess structural prosodic
knowledge in self-supervised learning (SSL) speech models. It consists of two
subtasks, their corresponding metrics, and an evaluation dataset. In the
protosyntax task, the model must correctly identify strong versus weak prosodic
boundaries. In the lexical task, the model needs to correctly distinguish
between pauses inserted between words and within words. We also provide human
evaluation scores on this benchmark. We evaluated a series of SSL models and
found that they were all able to perform above chance on both tasks, even when
evaluated on an unseen language. However, non-native models performed
significantly worse than native ones on the lexical task, highlighting the
importance of lexical knowledge in this task. We also found a clear effect of
size with models trained on more data performing better in the two subtasks.
- Abstract(参考訳): 本稿では,自己教師付き学習(ssl)における構造的韻律知識を評価するための英語ベンチマークprosauditを提案する。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
プロトシンタックスタスクでは、モデルは強くて弱い韻律境界を正確に識別しなければならない。
語彙的タスクでは、モデルが単語と単語の間に挿入されたポーズを正しく区別する必要がある。
このベンチマークでは人による評価スコアも提供する。
SSLモデルを一連のモデルで評価した結果,見当たらない言語で評価した場合でも,いずれも両タスクにおいてより高い確率で実行可能であることがわかった。
しかし、非ネイティブモデルは語彙課題においてネイティブモデルよりも著しく悪く、この課題における語彙知識の重要性を強調した。
また、2つのサブタスクにおいて、より多くのデータに基づいてトレーニングされたモデルによるサイズの影響も明らかになりました。
関連論文リスト
- Teaching a Language Model to Distinguish Between Similar Details using a Small Adversarial Training Set [0.0]
対向テストセット(+13%)では,元のNLIタスクでは良好な性能を維持しつつ,精度が向上した。
また、SNLIテストセットの最も類似した矛盾点について、91.2%から92.9%まで精度が向上した(コサイン類似性によって判断される)。
論文 参考訳(メタデータ) (2024-10-30T15:27:55Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。