論文の概要: Probing self-supervised speech models for phonetic and phonemic
information: a case study in aspiration
- arxiv url: http://arxiv.org/abs/2306.06232v1
- Date: Fri, 9 Jun 2023 20:07:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:21:16.457437
- Title: Probing self-supervised speech models for phonetic and phonemic
information: a case study in aspiration
- Title(参考訳): 音声・音韻情報に対する自己教師型音声モデルの提案--覚醒を事例として
- Authors: Kinan Martin, Jon Gauthier, Canaan Breiss, Roger Levy
- Abstract要約: 我々は,これらのモデルの学習表現が,人間による基本的な表現区別とどのように一致しているかを評価する。
これらのモデルのアーキテクチャの初期層には、音韻と音韻の区別の堅牢な表現が出現している。
以上の結果から,HuBERTは抽象音韻的区別に対応する低雑音・低次元部分空間を導出することがわかった。
- 参考スコア(独自算出の注目度): 17.94683764469626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textless self-supervised speech models have grown in capabilities in recent
years, but the nature of the linguistic information they encode has not yet
been thoroughly examined. We evaluate the extent to which these models' learned
representations align with basic representational distinctions made by humans,
focusing on a set of phonetic (low-level) and phonemic (more abstract)
contrasts instantiated in word-initial stops. We find that robust
representations of both phonetic and phonemic distinctions emerge in early
layers of these models' architectures, and are preserved in the principal
components of deeper layer representations. Our analyses suggest two sources
for this success: some can only be explained by the optimization of the models
on speech data, while some can be attributed to these models' high-dimensional
architectures. Our findings show that speech-trained HuBERT derives a low-noise
and low-dimensional subspace corresponding to abstract phonological
distinctions.
- Abstract(参考訳): 近年,テキストのない自己教師型音声モデルの開発が進んでいるが,それらが符号化する言語情報の性質はまだ十分に検討されていない。
これらのモデルの学習表現が、人間が行った基本的な表現的区別と合致する程度を評価し、単語初期停止でインスタンス化された音素(低レベル)と音素(より抽象的な)のコントラストの集合に焦点を当てた。
これらのモデルのアーキテクチャの初期層には、音韻的・音韻的な区別の堅牢な表現が出現し、より深い層表現の主成分として保存される。
この成功の源泉は2つあり、あるものは音声データのモデル最適化によってのみ説明できるが、あるものはこれらのモデルの高次元アーキテクチャによるものである。
以上の結果から,HuBERTは抽象音韻的区別に対応する低雑音・低次元部分空間を導出した。
関連論文リスト
- Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,教師モデルの指数移動平均である教師モデルから抽出した音節セグメントの特徴を回帰する自己教師型モデルを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 語彙的・構文的理解に適した音節単位。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic
Organization in HuBERT [49.06057768982775]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - Self-Supervised Models of Speech Infer Universal Articulatory Kinematics [44.27187669492598]
SSLモデルの基本特性として「調音キネマティクスの推論」を示す。
また、この抽象化は、モデルをトレーニングするために使用されるデータの言語に大きく重なり合っていることも示しています。
簡単なアフィン変換では、アコースティック・トゥ・アコースティック・トゥ・アーティキュレーション・インバージョン(AAI)は、性別、言語、方言でさえ話者間で変換可能であることを示す。
論文 参考訳(メタデータ) (2023-10-16T19:50:01Z) - Wave to Syntax: Probing spoken language models for syntax [16.643072915927313]
音声言語の自己教師型および視覚的基盤モデルにおける構文の符号化に着目する。
我々は、構文がネットワークの中間層で最も顕著に捉えられ、より多くのパラメータを持つモデルでより明確に表現されていることを示す。
論文 参考訳(メタデータ) (2023-05-30T11:43:18Z) - Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings [19.195728241989702]
本稿では,トップダウン語彙知識を音響単語埋め込みの訓練手順に組み込んだマルチタスク学習モデルを提案する。
我々は3つの言語で実験を行い、語彙知識を取り入れることで、埋め込み空間の識別性が向上することを示した。
論文 参考訳(メタデータ) (2022-09-14T13:33:04Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。