論文の概要: Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research
- arxiv url: http://arxiv.org/abs/2305.01965v1
- Date: Wed, 3 May 2023 08:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:32:56.379998
- Title: Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research
- Title(参考訳): 幼児指向音声研究における音声品質が自然主義的長音録音に与える影響の分析
- Authors: Mar\'ia Andrea Cruz Bland\'on, Alejandrina Cristia, Okko R\"as\"anen
- Abstract要約: 早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modelling of early language acquisition aims to understand how infants
bootstrap their language skills. The modelling encompasses properties of the
input data used for training the models, the cognitive hypotheses and their
algorithmic implementations being tested, and the evaluation methodologies to
compare models to human data. Recent developments have enabled the use of more
naturalistic training data for computational models. This also motivates
development of more naturalistic tests of model behaviour. A crucial step
towards such an aim is to develop representative speech datasets consisting of
speech heard by infants in their natural environments. However, a major
drawback of such recordings is that they are typically noisy, and it is
currently unclear how the sound quality could affect analyses and modelling
experiments conducted on such data. In this paper, we explore this aspect for
the case of infant-directed speech (IDS) and adult-directed speech (ADS)
analysis. First, we manually and automatically annotated audio quality of
utterances extracted from two corpora of child-centred long-form recordings (in
English and French). We then compared acoustic features of IDS and ADS in an
in-lab dataset and across different audio quality subsets of naturalistic data.
Finally, we assessed how the audio quality and recording environment may change
the conclusions of a modelling analysis using a recent self-supervised learning
model. Our results show that the use of modest and high audio quality
naturalistic speech data result in largely similar conclusions on IDS and ADS
in terms of acoustic analyses and modelling experiments. We also found that an
automatic sound quality assessment tool can be used to screen out useful parts
of long-form recordings for a closer analysis with comparable results to that
of manual quality annotation.
- Abstract(参考訳): 早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
モデリングは、モデルトレーニングに使用される入力データの特性、テスト中の認知仮説とそのアルゴリズムの実装、およびモデルと人間データを比較する評価方法論を包含する。
近年の進歩により、計算モデルにより自然主義的なトレーニングデータを利用できるようになった。
これはまた、モデル行動のより自然なテストの開発を動機付けます。
このような目的に向けての重要なステップは、乳幼児の自然環境における音声による代表的音声データセットの開発である。
しかし、これらの録音の大きな欠点は、通常ノイズが多いことであり、音質がデータの解析やモデリング実験にどのように影響するかは、現在不明である。
本稿では,幼児指向音声 (IDS) と成人指向音声 (ADS) 分析の場合について検討する。
まず,2コーパスから抽出した音声の音質(英語とフランス語)を手動で自動で注釈付けした。
次に、実験室内データセットにおけるIDSとADSの音響特性を、自然科学データの異なる音質サブセットで比較した。
最後に,近年の自己教師付き学習モデルを用いて,音声品質と記録環境がモデル解析の結論をどのように変えるかを検討した。
以上の結果から,音声品質の高い音声データを用いることで,音響解析やモデル実験の観点から,idや広告にほぼ類似した結論が得られることがわかった。
また, 音質自動評価ツールを用いて, 長尺録音の有用な部分の画面表示を行い, 手動音質アノテーションと同等の結果を得た。
関連論文リスト
- A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [51.42020333199243]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - Analyzing Robustness of End-to-End Neural Models for Automatic Speech
Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。
本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文 参考訳(メタデータ) (2022-08-17T20:00:54Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Generacion de voces artificiales infantiles en castellano con acento
costarricense [0.0]
本稿は,コスタリカのアクセントで人工児の声を生成する最初の経験について評価する。
その結果, 孤立した単語で評価した結果の明瞭さは, 参加する子どものグループの声よりも低いことがわかった。
論文 参考訳(メタデータ) (2021-02-02T02:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。