論文の概要: Low-dimensional representation of infant and adult vocalization
acoustics
- arxiv url: http://arxiv.org/abs/2204.12279v1
- Date: Mon, 25 Apr 2022 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:10:01.760051
- Title: Low-dimensional representation of infant and adult vocalization
acoustics
- Title(参考訳): 幼児と成人の発声音の低次元表現
- Authors: Silvia Pagliarini, Sara Schneider, Christopher T. Kello, Anne S.
Warlaumont
- Abstract要約: 本研究では, スペクトル特徴抽出と教師なし機械学習, 特にUniform Manifold Approximation (UMAP) を用いて, 乳幼児の2次元空間的表現と, 在宅録音から抽出した介護者の発声について検討した。
例えば,乳児の2次元空間内における発声音の分散は3カ月から9か月に増加し,その後9か月から18カ月に減少した。
- 参考スコア(独自算出の注目度): 2.1826796927092214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: During the first years of life, infant vocalizations change considerably, as
infants develop the vocalization skills that enable them to produce speech
sounds. Characterizations based on specific acoustic features, protophone
categories, or phonetic transcription are able to provide a representation of
the sounds infants make at different ages and in different contexts but do not
fully describe how sounds are perceived by listeners, can be inefficient to
obtain at large scales, and are difficult to visualize in two dimensions
without additional statistical processing. Machine-learning-based approaches
provide the opportunity to complement these characterizations with purely
data-driven representations of infant sounds. Here, we use spectral features
extraction and unsupervised machine learning, specifically Uniform Manifold
Approximation (UMAP), to obtain a novel 2-dimensional spatial representation of
infant and caregiver vocalizations extracted from day-long home recordings.
UMAP yields a continuous and well-distributed space conducive to certain
analyses of infant vocal development. For instance, we found that the
dispersion of infant vocalization acoustics within the 2-D space over a day
increased from 3 to 9 months, and then decreased from 9 to 18 months. The
method also permits analysis of similarity between infant and adult
vocalizations, which also shows changes with infant age.
- Abstract(参考訳): 幼児の発声能力が発達するにつれて、幼児の発声能力が大きく変化する。
特定の音響的特徴、原音のカテゴリー、音声の転写に基づく特徴付けは、幼児が異なる年齢と異なる文脈で作る音の表現を提供することができるが、リスナーがどのように音が知覚されるかを完全には記述せず、大規模な音を得るのに非効率であり、追加の統計処理なしでは2次元の視認が困難である。
機械学習に基づくアプローチは、幼児の音声の純粋データ駆動表現でこれらの特徴を補完する機会を提供する。
そこで我々は, スペクトル特徴抽出と教師なし機械学習, 特にUniform Manifold Approximation (UMAP) を用いて, 乳幼児の2次元空間表現と, 介護者の音声化を日中録音から抽出した。
UMAPは、乳児の発声発生の特定の分析に寄与する、連続的でよく分散された空間をもたらす。
例えば、乳児の2次元空間における発声音響の1日あたりの分散は3ヶ月から9ヶ月に増加し、その後9ヶ月から18ヶ月に減少した。
この方法はまた、幼児と成人の発声の類似性の分析を可能にし、幼児の年齢とともに変化を示す。
関連論文リスト
- Dirichlet process mixture model based on topologically augmented signal representation for clustering infant vocalizations [0.0]
子どもの生活の最初の12ヶ月に1ヶ月に1回録音された音声に基づいて,この音声をクラスタリングするための新しい手法を提案する。
音声のトポロジ的に拡張された表現を用い、各音声に対して2つの持続図を用いた。
以上の結果より, 発声8群の存在が明らかとなり, 生後12ヶ月で時間分布と音響的特徴を比較することができた。
論文 参考訳(メタデータ) (2024-07-08T09:12:52Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Visualizations of Complex Sequences of Family-Infant Vocalizations Using
Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features [41.07344746812834]
米国では、2-8歳の子供の約15-17%が、少なくとも1つの精神、行動、発達障害を診断していると推定されている。
これまでの研究では、携帯電話、ビデオ、LENAのような音声のみの記録装置を用いて収集された幼児および/または親の発声の分類において、高度なMLモデルが優れていることが示されている。
我々は、wav2vec 2.0機能を持つbaba-of-audio-words法を用いて、家族と幼児の発声相互作用を理解するための高レベルな可視化を作成する。
論文 参考訳(メタデータ) (2022-03-29T01:46:14Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Automatic Analysis of the Emotional Content of Speech in Daylong
Child-Centered Recordings from a Neonatal Intensive Care Unit [3.7373314439051106]
フィンランドとエストニアの2つの病院から、幼児の音声環境から毎日何百時間もの録音が収集された。
本稿では、当初未発表の大規模実世界の音声データセットを導入し、フィンランドのサブセットを対象とした機能的SERシステムの開発について述べる。
最適性能モデルは73.4%の非重み付き平均リコールの分類性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-14T11:17:52Z) - Convolutional Neural Network-Based Age Estimation Using B-Mode
Ultrasound Tongue Image [10.100437437151621]
話者の超音波舌画像を用いた年齢推定の実現可能性について検討する。
深層学習の成功に動機づけられた本論文は,この課題に深層学習を活用する。
提案手法は,音声セラピーセッションの性能を評価するツールとして利用できる。
論文 参考訳(メタデータ) (2021-01-27T08:00:47Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Data-driven Detection and Analysis of the Patterns of Creaky Voice [13.829936505895692]
クレーキー音声はフレーズ境界マーカーとしてよく使われる品質である。
難解な音声の自動検出とモデリングは、音声技術への応用に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2020-05-31T13:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。