論文の概要: Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research
- arxiv url: http://arxiv.org/abs/2305.01965v1
- Date: Wed, 3 May 2023 08:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:32:56.379998
- Title: Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research
- Title(参考訳): 幼児指向音声研究における音声品質が自然主義的長音録音に与える影響の分析
- Authors: Mar\'ia Andrea Cruz Bland\'on, Alejandrina Cristia, Okko R\"as\"anen
- Abstract要約: 早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modelling of early language acquisition aims to understand how infants
bootstrap their language skills. The modelling encompasses properties of the
input data used for training the models, the cognitive hypotheses and their
algorithmic implementations being tested, and the evaluation methodologies to
compare models to human data. Recent developments have enabled the use of more
naturalistic training data for computational models. This also motivates
development of more naturalistic tests of model behaviour. A crucial step
towards such an aim is to develop representative speech datasets consisting of
speech heard by infants in their natural environments. However, a major
drawback of such recordings is that they are typically noisy, and it is
currently unclear how the sound quality could affect analyses and modelling
experiments conducted on such data. In this paper, we explore this aspect for
the case of infant-directed speech (IDS) and adult-directed speech (ADS)
analysis. First, we manually and automatically annotated audio quality of
utterances extracted from two corpora of child-centred long-form recordings (in
English and French). We then compared acoustic features of IDS and ADS in an
in-lab dataset and across different audio quality subsets of naturalistic data.
Finally, we assessed how the audio quality and recording environment may change
the conclusions of a modelling analysis using a recent self-supervised learning
model. Our results show that the use of modest and high audio quality
naturalistic speech data result in largely similar conclusions on IDS and ADS
in terms of acoustic analyses and modelling experiments. We also found that an
automatic sound quality assessment tool can be used to screen out useful parts
of long-form recordings for a closer analysis with comparable results to that
of manual quality annotation.
- Abstract(参考訳): 早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
モデリングは、モデルトレーニングに使用される入力データの特性、テスト中の認知仮説とそのアルゴリズムの実装、およびモデルと人間データを比較する評価方法論を包含する。
近年の進歩により、計算モデルにより自然主義的なトレーニングデータを利用できるようになった。
これはまた、モデル行動のより自然なテストの開発を動機付けます。
このような目的に向けての重要なステップは、乳幼児の自然環境における音声による代表的音声データセットの開発である。
しかし、これらの録音の大きな欠点は、通常ノイズが多いことであり、音質がデータの解析やモデリング実験にどのように影響するかは、現在不明である。
本稿では,幼児指向音声 (IDS) と成人指向音声 (ADS) 分析の場合について検討する。
まず,2コーパスから抽出した音声の音質(英語とフランス語)を手動で自動で注釈付けした。
次に、実験室内データセットにおけるIDSとADSの音響特性を、自然科学データの異なる音質サブセットで比較した。
最後に,近年の自己教師付き学習モデルを用いて,音声品質と記録環境がモデル解析の結論をどのように変えるかを検討した。
以上の結果から,音声品質の高い音声データを用いることで,音響解析やモデル実験の観点から,idや広告にほぼ類似した結論が得られることがわかった。
また, 音質自動評価ツールを用いて, 長尺録音の有用な部分の画面表示を行い, 手動音質アノテーションと同等の結果を得た。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Measuring Sound Symbolism in Audio-visual Models [21.876743976994614]
本研究では,事前学習した音声視覚モデルが,音と視覚表現の関連性を示すかどうかを検討する。
この結果から,人間の言語処理との関連が明らかとなり,認知アーキテクチャや機械学習戦略の洞察が得られた。
論文 参考訳(メタデータ) (2024-09-18T20:33:54Z) - Interpreting Pretrained Speech Models for Automatic Speech Assessment of Voice Disorders [0.8796261172196743]
我々は、音声障害検出の文脈において、オーディオスペクトログラム変換器の2つの構成を訓練し比較する。
本研究では,モデルが予測を行うときのスペクトル領域の計算的関連性であるモデル関連性マップを作成するために,アテンションロールアウト手法を適用した。
我々はこれらのマップを用いて、モデルが異なる条件下でどのように予測を行うかを分析し、モデルが微調整されるにつれて注意の拡散が減少することを示す。
論文 参考訳(メタデータ) (2024-06-29T21:14:48Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - Analyzing Robustness of End-to-End Neural Models for Automatic Speech
Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。
本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文 参考訳(メタデータ) (2022-08-17T20:00:54Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Generacion de voces artificiales infantiles en castellano con acento
costarricense [0.0]
本稿は,コスタリカのアクセントで人工児の声を生成する最初の経験について評価する。
その結果, 孤立した単語で評価した結果の明瞭さは, 参加する子どものグループの声よりも低いことがわかった。
論文 参考訳(メタデータ) (2021-02-02T02:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。