論文の概要: Syllable Discovery and Cross-Lingual Generalization in a Visually
Grounded, Self-Supervised Speech Model
- arxiv url: http://arxiv.org/abs/2305.11435v2
- Date: Sun, 23 Jul 2023 05:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 21:16:00.151343
- Title: Syllable Discovery and Cross-Lingual Generalization in a Visually
Grounded, Self-Supervised Speech Model
- Title(参考訳): 視覚的接地・自己監督音声モデルにおけるシラブル発見と言語間一般化
- Authors: Puyuan Peng, Shang-Wen Li, Okko R\"as\"anen, Abdelrahman Mohamed,
David Harwath
- Abstract要約: 自己教師型音声モデルの学習において, 音節単位を捉えた表現が出現することを示す。
我々のモデルは、訓練された言語(英語)上で、最先端のシラバス的セグメンテーション法よりも優れているだけでなく、ゼロショット方式でエストニア語に一般化していることを示す。
- 参考スコア(独自算出の注目度): 21.286529902957724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we show that representations capturing syllabic units emerge
when training a self-supervised speech model with a visually-grounded training
objective. We demonstrate that a nearly identical model architecture (HuBERT)
trained with a masked language modeling loss does not exhibit this same
ability, suggesting that the visual grounding objective is responsible for the
emergence of this phenomenon. We propose the use of a minimum cut algorithm to
automatically predict syllable boundaries in speech, followed by a 2-stage
clustering method to group identical syllables together. We show that our model
not only outperforms a state-of-the-art syllabic segmentation method on the
language it was trained on (English), but also generalizes in a zero-shot
fashion to Estonian. Finally, we show that the same model is capable of
zero-shot generalization for a word segmentation task on 4 other languages from
the Zerospeech Challenge, in some cases beating the previous state-of-the-art.
- Abstract(参考訳): 本稿では,視座訓練目標を用いた自己教師あり音声モデルの訓練において,音節単位を捉えた表現が出現することを示す。
マスク付き言語モデリング損失で訓練されたほぼ同一のモデルアーキテクチャ(HuBERT)が、このような能力を示していないことを実証し、この現象の出現に視覚的基盤が関与していることを示す。
本研究では,音声中の音節境界を自動的に予測する最小カットアルゴリズムと,同一音節をグループ化する2段階クラスタリング法を提案する。
我々のモデルは、訓練された言語(英語)で最先端の音節セグメンテーション法を上回っているだけでなく、ゼロショット方式でエストニア語に一般化している。
最後に,Zerospeech Challengeの他の4言語に対する単語分割タスクに対して,同じモデルでゼロショットの一般化が可能であることを示す。
関連論文リスト
- Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,教師モデルの指数移動平均である教師モデルから抽出した音節セグメントの特徴を回帰する自己教師型モデルを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 語彙的・構文的理解に適した音節単位。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic
Organization in HuBERT [49.06057768982775]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - Self-Supervised Models of Speech Infer Universal Articulatory Kinematics [44.27187669492598]
SSLモデルの基本特性として「調音キネマティクスの推論」を示す。
また、この抽象化は、モデルをトレーニングするために使用されるデータの言語に大きく重なり合っていることも示しています。
簡単なアフィン変換では、アコースティック・トゥ・アコースティック・トゥ・アーティキュレーション・インバージョン(AAI)は、性別、言語、方言でさえ話者間で変換可能であることを示す。
論文 参考訳(メタデータ) (2023-10-16T19:50:01Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Analyzing Acoustic Word Embeddings from Pre-trained Self-supervised
Speech Models [30.30385903059709]
HuBERTの表現は平均的なペアリングで、英語のAWEで最先端のアートに匹敵する。
英語のみで訓練されているにもかかわらず、ユベルト表現はXitsonga、Mandarin、フランス語で評価され、多言語モデルXLSR-53より一貫して優れていた。
論文 参考訳(メタデータ) (2022-10-28T10:26:46Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - A Brief Overview of Unsupervised Neural Speech Representation Learning [12.850357461259197]
本稿では,過去10年間の音声教育における教師なし表現学習の展開について概観する。
自己教師型手法と確率的潜在変数モデルという2つの主要なモデルカテゴリを同定する。
論文 参考訳(メタデータ) (2022-03-01T11:15:35Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。