論文の概要: Speech transformer models for extracting information from baby cries
- arxiv url: http://arxiv.org/abs/2509.02259v1
- Date: Tue, 02 Sep 2025 12:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.021921
- Title: Speech transformer models for extracting information from baby cries
- Title(参考訳): 乳幼児の泣き声から情報を抽出する音声トランスフォーマーモデル
- Authors: Guillem Bonafos, Jéremy Rouch, Lény Lego, David Reby, Hugues Patural, Nicolas Mathevon, Rémy Emonet,
- Abstract要約: 本研究では,8つのベビークライスデータセットを用いて,事前学習した5つの音声モデルを評価する。
各データセットに対して、各モデルの潜在表現を、利用可能なすべての分類タスクで評価する。
以上の結果から,これらのモデルの潜在表現は,人間の乳幼児の泣き声を効果的に分類できることが示唆された。
- 参考スコア(独自算出の注目度): 0.6822819361110412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning using latent representations from pre-trained speech models achieves outstanding performance in tasks where labeled data is scarce. However, their applicability to non-speech data and the specific acoustic properties encoded in these representations remain largely unexplored. In this study, we investigate both aspects. We evaluate five pre-trained speech models on eight baby cries datasets, encompassing 115 hours of audio from 960 babies. For each dataset, we assess the latent representations of each model across all available classification tasks. Our results demonstrate that the latent representations of these models can effectively classify human baby cries and encode key information related to vocal source instability and identity of the crying baby. In addition, a comparison of the architectures and training strategies of these models offers valuable insights for the design of future models tailored to similar tasks, such as emotion detection.
- Abstract(参考訳): 事前学習された音声モデルからの潜在表現を用いた伝達学習は、ラベル付きデータが不足しているタスクにおいて優れた性能を達成する。
しかし、非音声データに適用可能であり、これらの表現に符号化された特定の音響特性はほとんど探索されていない。
本研究では,両側面について検討する。
乳児960児の音声115時間を含む8つの乳幼児群を対象に,事前学習した5つの音声モデルの評価を行った。
各データセットに対して、各モデルの潜在表現を、利用可能なすべての分類タスクで評価する。
以上の結果から,これらのモデルの潜在表現は,人間の乳幼児の泣き声を効果的に分類し,発声源の不安定性と泣き声の同一性に関連する重要な情報を符号化できることが示唆された。
さらに、これらのモデルのアーキテクチャとトレーニング戦略の比較は、感情検出のような類似したタスクに合わせた将来のモデルの設計に貴重な洞察を与える。
関連論文リスト
- Crossing the Species Divide: Transfer Learning from Speech to Animal Sounds [24.203596224724848]
自己教師型音声モデルは,音声処理において顕著な性能を示したが,その非音声データに対する効果は未検討のままである。
我々は,HuBERT,WavLM,XEUSなどのモデルが,分類群全体にわたって動物の音の豊かな潜伏表現を生成可能であることを示す。
その結果, 微調整された生体音響事前学習モデルと競合し, ノイズローバスト事前学習装置の影響を示す。
論文 参考訳(メタデータ) (2025-09-04T12:39:05Z) - Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - Synthetic data enables context-aware bioacoustic sound event detection [18.158806322128527]
本研究では,文脈内学習能力を向上させる基礎モデル学習手法を提案する。
我々は、8.8万時間以上の強いラベル付き音声を生成し、クエリ・バイ・サンプル・トランスフォーマー・ベース・モデルを用いて、バイオアコースティック・サウンド・イベントの検出を行う。
トレーニングされたモデルをAPIを通じて利用可能にすることで、生態学者や生態学者にバイオ音響音響イベント検出のためのトレーニング不要のツールを提供する。
論文 参考訳(メタデータ) (2025-03-01T02:03:22Z) - InfantCryNet: A Data-driven Framework for Intelligent Analysis of Infant Cries [24.06154195051215]
本稿では,これらのタスクを実現するための新しいデータ駆動フレームワーク"InfantCryNet"を提案する。
事前学習された音声モデルを用いて、事前知識をモデルに組み込む。
実生活データセットの実験は、提案フレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-29T12:35:47Z) - Measuring Sound Symbolism in Audio-visual Models [21.876743976994614]
本研究では,事前学習した音声視覚モデルが,音と視覚表現の関連性を示すかどうかを検討する。
この結果から,人間の言語処理との関連が明らかとなり,認知アーキテクチャや機械学習戦略の洞察が得られた。
論文 参考訳(メタデータ) (2024-09-18T20:33:54Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - XAI-based Comparison of Input Representations for Audio Event
Classification [10.874097312428235]
我々はeXplainable AI(XAI)を活用し、異なる入力表現に基づいて訓練されたモデルの基本的な分類戦略を理解する。
具体的には、オーディオイベント検出に使用される関連する入力機能について、2つのモデルアーキテクチャを比較した。
論文 参考訳(メタデータ) (2023-04-27T08:30:07Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。