Fugu-MT 論文翻訳(概要): Speech transformer models for extracting information from baby cries

論文の概要: Speech transformer models for extracting information from baby cries

arxiv url: http://arxiv.org/abs/2509.02259v1
Date: Tue, 02 Sep 2025 12:34:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-04 15:17:04.021921
Title: Speech transformer models for extracting information from baby cries
Title（参考訳）: 乳幼児の泣き声から情報を抽出する音声トランスフォーマーモデル
Authors: Guillem Bonafos, Jéremy Rouch, Lény Lego, David Reby, Hugues Patural, Nicolas Mathevon, Rémy Emonet,
Abstract要約: 本研究では,8つのベビークライスデータセットを用いて,事前学習した5つの音声モデルを評価する。各データセットに対して、各モデルの潜在表現を、利用可能なすべての分類タスクで評価する。以上の結果から,これらのモデルの潜在表現は,人間の乳幼児の泣き声を効果的に分類できることが示唆された。
参考スコア（独自算出の注目度）: 0.6822819361110412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transfer learning using latent representations from pre-trained speech models achieves outstanding performance in tasks where labeled data is scarce. However, their applicability to non-speech data and the specific acoustic properties encoded in these representations remain largely unexplored. In this study, we investigate both aspects. We evaluate five pre-trained speech models on eight baby cries datasets, encompassing 115 hours of audio from 960 babies. For each dataset, we assess the latent representations of each model across all available classification tasks. Our results demonstrate that the latent representations of these models can effectively classify human baby cries and encode key information related to vocal source instability and identity of the crying baby. In addition, a comparison of the architectures and training strategies of these models offers valuable insights for the design of future models tailored to similar tasks, such as emotion detection.
Abstract（参考訳）: 事前学習された音声モデルからの潜在表現を用いた伝達学習は、ラベル付きデータが不足しているタスクにおいて優れた性能を達成する。しかし、非音声データに適用可能であり、これらの表現に符号化された特定の音響特性はほとんど探索されていない。本研究では,両側面について検討する。乳児960児の音声115時間を含む8つの乳幼児群を対象に,事前学習した5つの音声モデルの評価を行った。各データセットに対して、各モデルの潜在表現を、利用可能なすべての分類タスクで評価する。以上の結果から,これらのモデルの潜在表現は,人間の乳幼児の泣き声を効果的に分類し,発声源の不安定性と泣き声の同一性に関連する重要な情報を符号化できることが示唆された。さらに、これらのモデルのアーキテクチャとトレーニング戦略の比較は、感情検出のような類似したタスクに合わせた将来のモデルの設計に貴重な洞察を与える。

関連論文リスト

Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文参考訳（メタデータ） (2025-08-28T15:43:15Z)
Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。 SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文参考訳（メタデータ） (2025-08-22T17:59:35Z)
Synthetic data enables context-aware bioacoustic sound event detection [18.158806322128527]
本研究では,文脈内学習能力を向上させる基礎モデル学習手法を提案する。我々は、8.8万時間以上の強いラベル付き音声を生成し、クエリ・バイ・サンプル・トランスフォーマー・ベース・モデルを用いて、バイオアコースティック・サウンド・イベントの検出を行う。トレーニングされたモデルをAPIを通じて利用可能にすることで、生態学者や生態学者にバイオ音響音響イベント検出のためのトレーニング不要のツールを提供する。
論文参考訳（メタデータ） (2025-03-01T02:03:22Z)
Measuring Sound Symbolism in Audio-visual Models [21.876743976994614]
本研究では,事前学習した音声視覚モデルが,音と視覚表現の関連性を示すかどうかを検討する。この結果から,人間の言語処理との関連が明らかとなり,認知アーキテクチャや機械学習戦略の洞察が得られた。
論文参考訳（メタデータ） (2024-09-18T20:33:54Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文参考訳（メタデータ） (2022-11-23T18:21:09Z)
Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文参考訳（メタデータ） (2022-08-28T10:03:55Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。