Fugu-MT 論文翻訳(概要): Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research

論文の概要: Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research

arxiv url: http://arxiv.org/abs/2305.01965v1
Date: Wed, 3 May 2023 08:25:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-04 15:32:56.379998
Title: Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research
Title（参考訳）: 幼児指向音声研究における音声品質が自然主義的長音録音に与える影響の分析
Authors: Mar\'ia Andrea Cruz Bland\'on, Alejandrina Cristia, Okko R\"as\"anen
Abstract要約: 早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
参考スコア（独自算出の注目度）: 62.997667081978825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modelling of early language acquisition aims to understand how infants bootstrap their language skills. The modelling encompasses properties of the input data used for training the models, the cognitive hypotheses and their algorithmic implementations being tested, and the evaluation methodologies to compare models to human data. Recent developments have enabled the use of more naturalistic training data for computational models. This also motivates development of more naturalistic tests of model behaviour. A crucial step towards such an aim is to develop representative speech datasets consisting of speech heard by infants in their natural environments. However, a major drawback of such recordings is that they are typically noisy, and it is currently unclear how the sound quality could affect analyses and modelling experiments conducted on such data. In this paper, we explore this aspect for the case of infant-directed speech (IDS) and adult-directed speech (ADS) analysis. First, we manually and automatically annotated audio quality of utterances extracted from two corpora of child-centred long-form recordings (in English and French). We then compared acoustic features of IDS and ADS in an in-lab dataset and across different audio quality subsets of naturalistic data. Finally, we assessed how the audio quality and recording environment may change the conclusions of a modelling analysis using a recent self-supervised learning model. Our results show that the use of modest and high audio quality naturalistic speech data result in largely similar conclusions on IDS and ADS in terms of acoustic analyses and modelling experiments. We also found that an automatic sound quality assessment tool can be used to screen out useful parts of long-form recordings for a closer analysis with comparable results to that of manual quality annotation.
Abstract（参考訳）: 早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。モデリングは、モデルトレーニングに使用される入力データの特性、テスト中の認知仮説とそのアルゴリズムの実装、およびモデルと人間データを比較する評価方法論を包含する。近年の進歩により、計算モデルにより自然主義的なトレーニングデータを利用できるようになった。これはまた、モデル行動のより自然なテストの開発を動機付けます。このような目的に向けての重要なステップは、乳幼児の自然環境における音声による代表的音声データセットの開発である。しかし、これらの録音の大きな欠点は、通常ノイズが多いことであり、音質がデータの解析やモデリング実験にどのように影響するかは、現在不明である。本稿では,幼児指向音声 (IDS) と成人指向音声 (ADS) 分析の場合について検討する。まず,2コーパスから抽出した音声の音質(英語とフランス語)を手動で自動で注釈付けした。次に、実験室内データセットにおけるIDSとADSの音響特性を、自然科学データの異なる音質サブセットで比較した。最後に,近年の自己教師付き学習モデルを用いて,音声品質と記録環境がモデル解析の結論をどのように変えるかを検討した。以上の結果から,音声品質の高い音声データを用いることで,音響解析やモデル実験の観点から,idや広告にほぼ類似した結論が得られることがわかった。また, 音質自動評価ツールを用いて, 長尺録音の有用な部分の画面表示を行い, 手動音質アノテーションと同等の結果を得た。

関連論文リスト

Crossing the Species Divide: Transfer Learning from Speech to Animal Sounds [24.203596224724848]
自己教師型音声モデルは,音声処理において顕著な性能を示したが,その非音声データに対する効果は未検討のままである。我々は,HuBERT,WavLM,XEUSなどのモデルが,分類群全体にわたって動物の音の豊かな潜伏表現を生成可能であることを示す。その結果, 微調整された生体音響事前学習モデルと競合し, ノイズローバスト事前学習装置の影響を示す。
論文参考訳（メタデータ） (2025-09-04T12:39:05Z)
Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文参考訳（メタデータ） (2025-08-28T15:43:15Z)
Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。 SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文参考訳（メタデータ） (2025-08-22T17:59:35Z)
ETTA: Elucidating the Design Space of Text-to-Audio Models [33.831803213869605]
対象ベンチマークに対するデータ,モデルアーキテクチャ,目標関数のトレーニング,およびサンプリング戦略の効果について検討する。 Eucidated Text-To-Audio (ETTA) と呼ばれる最良のモデルを提案する。 ETTAは、公開データでトレーニングされたベースラインよりも改善され、プロプライエタリデータでトレーニングされたモデルと競合する。
論文参考訳（メタデータ） (2024-12-26T21:13:12Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Measuring Sound Symbolism in Audio-visual Models [21.876743976994614]
本研究では,事前学習した音声視覚モデルが,音と視覚表現の関連性を示すかどうかを検討する。この結果から,人間の言語処理との関連が明らかとなり,認知アーキテクチャや機械学習戦略の洞察が得られた。
論文参考訳（メタデータ） (2024-09-18T20:33:54Z)
Interpreting Pretrained Speech Models for Automatic Speech Assessment of Voice Disorders [0.8796261172196743]
我々は、音声障害検出の文脈において、オーディオスペクトログラム変換器の2つの構成を訓練し比較する。本研究では,モデルが予測を行うときのスペクトル領域の計算的関連性であるモデル関連性マップを作成するために,アテンションロールアウト手法を適用した。我々はこれらのマップを用いて、モデルが異なる条件下でどのように予測を行うかを分析し、モデルが微調整されるにつれて注意の拡散が減少することを示す。
論文参考訳（メタデータ） (2024-06-29T21:14:48Z)
A Comparative Study of Perceptual Quality Metrics for Audio-driven Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文参考訳（メタデータ） (2024-03-11T04:13:38Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文参考訳（メタデータ） (2023-03-07T12:49:45Z)
Analyzing Robustness of End-to-End Neural Models for Automatic Speech Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文参考訳（メタデータ） (2022-08-17T20:00:54Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
Generacion de voces artificiales infantiles en castellano con acento costarricense [0.0]
本稿は,コスタリカのアクセントで人工児の声を生成する最初の経験について評価する。その結果, 孤立した単語で評価した結果の明瞭さは, 参加する子どものグループの声よりも低いことがわかった。
論文参考訳（メタデータ） (2021-02-02T02:12:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。