論文の概要: Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models
- arxiv url: http://arxiv.org/abs/2506.10855v1
- Date: Thu, 12 Jun 2025 16:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.831099
- Title: Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models
- Title(参考訳): 自己教師型音声モデルにおける事前学習言語, 音声, 声調, 話者情報の関係の分析
- Authors: Michele Gubian, Ioana Krehan, Oli Liu, James Kirby, Sharon Goldwater,
- Abstract要約: 我々は4つの異なる言語でトレーニングされたwav2vec2モデルが、言語マッチングと非マッチング言語の両方をエンコードしているかを示す。
以上の結果から,wav2vec2で学習した表現の構造は,事前訓練で使用する音声素材と大きく異なることが示唆された。
- 参考スコア(独自算出の注目度): 5.874344393486844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyses of self-supervised speech models have begun to reveal where and how they represent different types of information. However, almost all analyses have focused on English. Here, we examine how wav2vec2 models trained on four different languages encode both language-matched and non-matched speech. We use probing classifiers and geometric analyses to examine how phones, lexical tones, and speaker information are represented. We show that for all pretraining and test languages, the subspaces encoding phones, tones, and speakers are largely orthogonal, and that layerwise patterns of probing accuracy are similar, with a relatively small advantage for matched-language phone and tone (but not speaker) probes in the later layers. Our findings suggest that the structure of representations learned by wav2vec2 is largely independent of the speech material used during pretraining.
- Abstract(参考訳): 自己教師型音声モデルの解析は、どのように異なる種類の情報を表現するかを明らかにし始めている。
しかし、ほとんど全ての分析は英語に焦点を当てている。
本稿では、4つの異なる言語で訓練されたwav2vec2モデルがどのように言語マッチングと非マッチングの両方を符号化するかを検討する。
我々は,電話,語彙音,話者情報の表現方法を調べるために,韻律分類器と幾何学的解析を用いる。
すべての事前学習およびテスト言語に対して、電話、トーン、話者を符号化する部分空間は概ね直交しており、探索精度の階層的パターンは類似しており、後者の層では、マッチングされた音声電話やトーン(話者ではない)プローブに対して比較的小さな利点があることを示す。
以上の結果から,wav2vec2で学習した表現の構造は,事前訓練で使用する音声素材と大きく異なることが示唆された。
関連論文リスト
- Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - Do self-supervised speech and language models extract similar
representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文 参考訳(メタデータ) (2023-10-07T01:39:56Z) - Explaining Speech Classification Models via Word-Level Audio Segments
and Paralinguistic Features [35.31998003091635]
音声分類モデルを説明するための新しい手法を提案する。
入力摂動による2つの情報レベルの理解が容易な説明を生成する。
英語とイタリア語の2つの音声分類課題に対して、最先端の2つのSLUモデルを説明することによって、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-14T14:12:34Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。