論文の概要: Acoustic characterization of speech rhythm: going beyond metrics with
recurrent neural networks
- arxiv url: http://arxiv.org/abs/2401.14416v1
- Date: Mon, 22 Jan 2024 09:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-04 05:32:37.130941
- Title: Acoustic characterization of speech rhythm: going beyond metrics with
recurrent neural networks
- Title(参考訳): 音声リズムの音響的特徴付け--リカレントニューラルネットワークを用いたメトリクスを越えて
- Authors: Fran\c{c}ois Deloche, Laurent Bonnasse-Gahot, Judit Gervain
- Abstract要約: 我々は,21言語における音声記録の大規模データベース上で,言語識別タスク上で繰り返しニューラルネットワークを訓練する。
ネットワークは、40%のケースで10秒の録音の言語を識別することができ、その3分の2はトップ3の推測だった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Languages have long been described according to their perceived rhythmic
attributes. The associated typologies are of interest in psycholinguistics as
they partly predict newborns' abilities to discriminate between languages and
provide insights into how adult listeners process non-native languages. Despite
the relative success of rhythm metrics in supporting the existence of
linguistic rhythmic classes, quantitative studies have yet to capture the full
complexity of temporal regularities associated with speech rhythm. We argue
that deep learning offers a powerful pattern-recognition approach to advance
the characterization of the acoustic bases of speech rhythm. To explore this
hypothesis, we trained a medium-sized recurrent neural network on a language
identification task over a large database of speech recordings in 21 languages.
The network had access to the amplitude envelopes and a variable identifying
the voiced segments, assuming that this signal would poorly convey phonetic
information but preserve prosodic features. The network was able to identify
the language of 10-second recordings in 40% of the cases, and the language was
in the top-3 guesses in two-thirds of the cases. Visualization methods show
that representations built from the network activations are consistent with
speech rhythm typologies, although the resulting maps are more complex than two
separated clusters between stress and syllable-timed languages. We further
analyzed the model by identifying correlations between network activations and
known speech rhythm metrics. The findings illustrate the potential of deep
learning tools to advance our understanding of speech rhythm through the
identification and exploration of linguistically relevant acoustic feature
spaces.
- Abstract(参考訳): 言語は、そのリズミカルな特性によって長い間説明されてきた。
彼らは、新生児が言語を区別し、大人のリスナーが非ネイティブ言語をどのように処理するかに関する洞察を与える能力の一部を予測している。
言語リズミカルクラスの存在を支持するためのリズム指標の相対的成功にもかかわらず、定量的研究はまだ音声リズムに関連する時間的規則性の完全な複雑さを捉えていない。
深層学習は、音声リズムの音響的基盤の特徴付けを進めるための強力なパターン認識手法であると主張する。
この仮説を探求するため,21ヶ国語音声記録の大規模データベース上で言語識別タスクにおいて,中規模のリカレントニューラルネットワークを訓練した。
ネットワークは振幅エンベロープと発声セグメントを識別する変数にアクセスでき、この信号が音素情報を伝達しにくいが韻律的特徴を保持すると仮定した。
ネットワークは、40%のケースで10秒の録音の言語を識別でき、そして3分の2のケースでトップ3の推測をすることができた。
可視化により、ネットワークアクティベーションから構築された表現は、ストレスと音節時間言語の間の2つのクラスタよりも複雑であるが、音声リズムのタイポロジーと一致していることが示された。
さらに,ネットワークアクティベーションと既知の音声リズム指標の相関関係を同定し,モデル解析を行った。
本研究は,言語関連音響特徴空間の同定と探索を通じて,音声リズムの理解を深める深層学習ツールの可能性を示すものである。
関連論文リスト
- Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文 参考訳(メタデータ) (2024-07-10T07:37:18Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues [7.332652485849632]
ヒトの幼児は、言語に関する最小限の事前知識で口頭語彙を取得する。
本研究では,音声単位を発見するための教師なし学習手法を提案する。
提案手法は教師なし学習を用いて音声信号から単語と音素を取得することができる。
論文 参考訳(メタデータ) (2022-01-18T07:31:59Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks [0.0]
音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供することができる。
本稿では, 音声の獲得を, 生成適応型ネットワークアーキテクチャにおけるランダム空間と生成した音声データ間の依存性としてモデル化することができることを論じる。
本稿では,音韻的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
論文 参考訳(メタデータ) (2020-06-06T20:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。