論文の概要: On the Utility of Self-supervised Models for Prosody-related Tasks
- arxiv url: http://arxiv.org/abs/2210.07185v1
- Date: Thu, 13 Oct 2022 17:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:42:17.175102
- Title: On the Utility of Self-supervised Models for Prosody-related Tasks
- Title(参考訳): 韻律関連課題に対する自己教師型モデルの有用性について
- Authors: Guan-Ting Lin, Chi-Luen Feng, Wei-Ping Huang, Yuan Tseng, Tzu-Han Lin,
Chen-An Li, Hung-yi Lee, Nigel G. Ward
- Abstract要約: 音声データからの自己教師付き学習は、多くのタスクにおいて顕著なパフォーマンスを達成したモデルを生み出している。
本稿では,3つの下流タスクと2つの擬似タスクからなる新しい評価フレームワーク SUPERB-prosodyを提案する。
15のSSLモデルのうち13が、すべての韻律関連タスクのベースラインを上回りました。
- 参考スコア(独自算出の注目度): 44.66341483900179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-Supervised Learning (SSL) from speech data has produced models that have
achieved remarkable performance in many tasks, and that are known to implicitly
represent many aspects of information latently present in speech signals.
However, relatively little is known about the suitability of such models for
prosody-related tasks or the extent to which they encode prosodic information.
We present a new evaluation framework, SUPERB-prosody, consisting of three
prosody-related downstream tasks and two pseudo tasks. We find that 13 of the
15 SSL models outperformed the baseline on all the prosody-related tasks. We
also show good performance on two pseudo tasks: prosody reconstruction and
future prosody prediction. We further analyze the layerwise contributions of
the SSL models. Overall we conclude that SSL speech models are highly effective
for prosody-related tasks.
- Abstract(参考訳): 音声データからの自己監督学習(SSL)は、多くのタスクにおいて顕著なパフォーマンスを達成し、音声信号に最近存在している情報の多くの側面を暗黙的に表すモデルを生み出している。
しかし、そのようなモデルの韻律関連タスクへの適合性や、韻律情報をエンコードする程度についてはあまり知られていない。
本稿では,3つの下流タスクと2つの擬似タスクからなる新しい評価フレームワーク SUPERB-prosodyを提案する。
15のSSLモデルのうち13が、すべての韻律関連タスクのベースラインを上回りました。
また,2つの擬似課題(韻律再構成と将来の韻律予測)において良好な性能を示す。
さらに、SSLモデルの階層的なコントリビューションを分析します。
総じて、SSL音声モデルは韻律関連タスクに非常に効果的である。
関連論文リスト
- Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Toward Leveraging Pre-Trained Self-Supervised Frontends for Automatic
Singing Voice Understanding Tasks: Three Case Studies [1.2691047660244337]
自己教師付き学習モデル(SSLモデル)は、音声処理と音楽分類の分野で大量のラベルのないデータを用いて訓練されてきた。
本研究は,3つのタスク(歌手識別,歌唱音声書き起こし,歌唱技法分類)におけるSSLモデルの比較実験を初期探索として報告し,これらの知見を議論することを目的とした。
論文 参考訳(メタデータ) (2023-06-22T07:47:18Z) - Explaining, Analyzing, and Probing Representations of Self-Supervised
Learning Models for Sensor-based Human Activity Recognition [2.2082422928825136]
自己教師付き学習(SSL)フレームワークは、センサベースヒューマンアクティビティ認識(HAR)に広く応用されている。
本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。
論文 参考訳(メタデータ) (2023-04-14T07:53:59Z) - ProsAudit, a prosodic benchmark for self-supervised speech models [14.198508548718676]
ProsAuditは、自己教師付き学習(SSL)音声モデルにおける構造的韻律的知識を評価するためのベンチマークである。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
論文 参考訳(メタデータ) (2023-02-23T14:30:23Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Investigation of Ensemble features of Self-Supervised Pretrained Models
for Automatic Speech Recognition [0.3007949058551534]
自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。
本稿では、これらのSSL表現とモデルのアンサンブルを用いて、様々な事前訓練されたモデルによって抽出された特徴の相補的な性質を活用することを提案する。
論文 参考訳(メタデータ) (2022-06-11T12:43:00Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。