論文の概要: Analyzing Acoustic Word Embeddings from Pre-trained Self-supervised
Speech Models
- arxiv url: http://arxiv.org/abs/2210.16043v1
- Date: Fri, 28 Oct 2022 10:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:11:02.555949
- Title: Analyzing Acoustic Word Embeddings from Pre-trained Self-supervised
Speech Models
- Title(参考訳): 事前学習音声モデルを用いた音響単語埋め込みの分析
- Authors: Ramon Sanabria, Hao Tang, Sharon Goldwater
- Abstract要約: HuBERTの表現は平均的なペアリングで、英語のAWEで最先端のアートに匹敵する。
英語のみで訓練されているにもかかわらず、ユベルト表現はXitsonga、Mandarin、フランス語で評価され、多言語モデルXLSR-53より一貫して優れていた。
- 参考スコア(独自算出の注目度): 30.30385903059709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the strong results of self-supervised models on various tasks, there
have been surprisingly few studies exploring self-supervised representations
for acoustic word embeddings (AWE), fixed-dimensional vectors representing
variable-length spoken word segments. In this work, we study several
pre-trained models and pooling methods for constructing AWEs with
self-supervised representations. Owing to the contextualized nature of
self-supervised representations, we hypothesize that simple pooling methods,
such as averaging, might already be useful for constructing AWEs. When
evaluating on a standard word discrimination task, we find that HuBERT
representations with mean-pooling rival the state of the art on English AWEs.
More surprisingly, despite being trained only on English, HuBERT
representations evaluated on Xitsonga, Mandarin, and French consistently
outperform the multilingual model XLSR-53 (as well as Wav2Vec 2.0 trained on
English).
- Abstract(参考訳): 音響単語埋め込み(AWE)のための自己教師型表現を探索する研究は,様々なタスクにおける自己教師型モデルによる強い結果が得られている。
本研究では,AWEを自己教師付き表現で構築するための事前学習モデルとプーリング手法について検討する。
自己教師付き表現の文脈的性質から、平均化のような単純なプーリング手法は、既にAWEの構築に有用かもしれないと仮定する。
標準的な単語識別タスクで評価すると、平均プールのHuBERT表現が英語AWEの最先端技術に匹敵することがわかった。
さらに驚くべきことに、英語でしか訓練されていないにもかかわらず、Xitsonga、Mandarin、フランス語で評価された HuBERT の表現は多言語モデル XLSR-53 よりも一貫して優れていた。
関連論文リスト
- Distilling Monolingual and Crosslingual Word-in-Context Representations [18.87665111304974]
本研究では,単言語と言語間の両方の設定において,事前学習した言語モデルから文脈における単語の意味表現を除去する手法を提案する。
本手法では,事前学習したモデルのコーパスやパラメータの更新は不要である。
本手法は,事前学習したモデルの異なる隠れ層の出力を自己注意を用いて組み合わせることから学習する。
論文 参考訳(メタデータ) (2024-09-13T11:10:16Z) - Syllable Discovery and Cross-Lingual Generalization in a Visually
Grounded, Self-Supervised Speech Model [21.286529902957724]
自己教師型音声モデルの学習において, 音節単位を捉えた表現が出現することを示す。
我々のモデルは、訓練された言語(英語)上で、最先端のシラバス的セグメンテーション法よりも優れているだけでなく、ゼロショット方式でエストニア語に一般化していることを示す。
論文 参考訳(メタデータ) (2023-05-19T05:19:04Z) - ProsAudit, a prosodic benchmark for self-supervised speech models [14.198508548718676]
ProsAuditは、自己教師付き学習(SSL)音声モデルにおける構造的韻律的知識を評価するためのベンチマークである。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
論文 参考訳(メタデータ) (2023-02-23T14:30:23Z) - Supervised Acoustic Embeddings And Their Transferability Across
Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。
自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文 参考訳(メタデータ) (2023-01-03T09:37:24Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。