論文の概要: Probing self-attention in self-supervised speech models for cross-linguistic differences
- arxiv url: http://arxiv.org/abs/2409.03115v1
- Date: Wed, 4 Sep 2024 22:47:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 22:44:13.282936
- Title: Probing self-attention in self-supervised speech models for cross-linguistic differences
- Title(参考訳): 言語間差異を考慮した自己教師型音声モデルにおける自己意識の探索
- Authors: Sai Gopinath, Joselyn Rodriguez,
- Abstract要約: 1つの小型自己教師型音声トランスモデル(TERA)の自己認識機構について検討する。
たとえ小さなモデルであっても、学習された注目は、ほぼ完全に対角形からほぼ完全にグローバルなものまで様々である。
トルコ語と英語の注意パターンの顕著な違いを強調し,事前学習中に重要な音韻情報を学ぶことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech models have gained traction thanks to increase in accuracy from novel transformer architectures. While this impressive increase in performance across automatic speech recognition (ASR) benchmarks is noteworthy, there is still much that is unknown about the use of attention mechanisms for speech-related tasks. For example, while it is assumed that these models are learning language-independent (i.e., universal) speech representations, there has not yet been an in-depth exploration of what it would mean for the models to be language-independent. In the current paper, we explore this question within the realm of self-attention mechanisms of one small self-supervised speech transformer model (TERA). We find that even with a small model, the attention heads learned are diverse ranging from almost entirely diagonal to almost entirely global regardless of the training language. We highlight some notable differences in attention patterns between Turkish and English and demonstrate that the models do learn important phonological information during pretraining. We also present a head ablation study which shows that models across languages primarily rely on diagonal heads to classify phonemes.
- Abstract(参考訳): 音声モデルは、新しいトランスフォーマーアーキテクチャによる精度の向上により、注目を集めている。
自動音声認識(ASR)ベンチマークにおけるこの顕著なパフォーマンス向上は注目に値するが、音声関連タスクにおける注意機構の使用についてはまだ不明な点が多い。
例えば、これらのモデルは言語に依存しない(つまり普遍的な)言語表現を学習していると仮定されるが、モデルが言語に依存しないことの意味について詳細な調査は行われていない。
本稿では,1つの自己教師型音声変換器モデル(TERA)の自己認識機構の領域内でこの問題を考察する。
たとえ小さなモデルであっても、学習された注目は、ほぼ完全に対角形からほぼ完全にグローバルなものまで様々である。
トルコ語と英語の注意パターンの顕著な違いを強調し,事前学習中に重要な音韻情報を学ぶことを示す。
また,音素を分類するために,言語間のモデルが主眼を斜めの頭部に頼っていることを示す頭部アブレーション研究も行った。
関連論文リスト
- Self-Supervised Models of Speech Infer Universal Articulatory Kinematics [44.27187669492598]
SSLモデルの基本特性として「調音キネマティクスの推論」を示す。
また、この抽象化は、モデルをトレーニングするために使用されるデータの言語に大きく重なり合っていることも示しています。
簡単なアフィン変換では、アコースティック・トゥ・アコースティック・トゥ・アーティキュレーション・インバージョン(AAI)は、性別、言語、方言でさえ話者間で変換可能であることを示す。
論文 参考訳(メタデータ) (2023-10-16T19:50:01Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Supervised Acoustic Embeddings And Their Transferability Across
Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。
自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文 参考訳(メタデータ) (2023-01-03T09:37:24Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Do self-supervised speech models develop human-like perception biases? [11.646802225841153]
本稿では,3種類の最先端自己教師型モデル(wav2vec 2.0, HuBERT, CPC)の表現空間について検討する。
CPCモデルは母国語の影響が小さいことを示すが、wav2vec 2.0とHuBERTは言語固有のものではない普遍的な音声認識空間を発達させている。
教師付き電話認識装置の予測との比較では、教師付き3つのモデルが比較的きめ細かい知覚現象を捉えているのに対し、教師付きモデルは聞き手の母国語が知覚に与える影響を捉えるのに優れていることが示唆されている。
論文 参考訳(メタデータ) (2022-05-31T14:21:40Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。