Fugu-MT 論文翻訳(概要): Children's Speech Recognition through Discrete Token Enhancement

論文の概要: Children's Speech Recognition through Discrete Token Enhancement

arxiv url: http://arxiv.org/abs/2406.13431v2
Date: Mon, 24 Jun 2024 15:31:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 13:26:35.294418
Title: Children's Speech Recognition through Discrete Token Enhancement
Title（参考訳）: 離散的音声強調による子どもの音声認識
Authors: Vrunda N. Sukhadia, Shammur Absar Chowdhury,
Abstract要約: 本研究では,ASRの性能を著しく低下させることなく,個々の音声トークンを幼児の音声認識システムに組み込むことを入力として検討する。その結果,子供用離散トークンASRは,約83%のパラメータでほぼ同等の性能を発揮することがわかった。
参考スコア（独自算出の注目度）: 7.964926333613502
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Children's speech recognition is considered a low-resource task mainly due to the lack of publicly available data. There are several reasons for such data scarcity, including expensive data collection and annotation processes, and data privacy, among others. Transforming speech signals into discrete tokens that do not carry sensitive information but capture both linguistic and acoustic information could be a solution for privacy concerns. In this study, we investigate the integration of discrete speech tokens into children's speech recognition systems as input without significantly degrading the ASR performance. Additionally, we explored single-view and multi-view strategies for creating these discrete labels. Furthermore, we tested the models for generalization capabilities with unseen domain and nativity dataset. Results reveal that the discrete token ASR for children achieves nearly equivalent performance with an approximate 83% reduction in parameters.
Abstract（参考訳）: 子どもの音声認識は、公開データの欠如が主な理由として、低リソースの課題と見なされている。このようなデータ不足には、高価なデータ収集やアノテーションプロセス、データプライバシなど、いくつかの理由がある。音声信号を機密情報を保持せず、言語情報と音響情報の両方をキャプチャする離散トークンに変換することは、プライバシー上の問題に対する解決策になり得る。本研究では,ASRの性能を著しく低下させることなく,個々の音声トークンを幼児の音声認識システムに組み込むことを入力として検討する。さらに、これらの離散ラベルを作成するためのシングルビューとマルチビュー戦略についても検討した。さらに、未確認領域とナビティビティデータセットを用いて一般化能力のモデルを検証した。その結果,子供用離散トークンASRは,約83%のパラメータでほぼ同等の性能を発揮することがわかった。

関連論文リスト

Frontend Token Enhancement for Token-Based Speech Recognition [50.35062963870211]
音声信号の離散化表現は、音声認識アプリケーションにおける連続的な特徴の効率的な代替手段である。本研究では,雑音の多い音声からクリーンな音声トークンを推定し,意味的トークンを用いてASRバックエンド上で評価するシステムを提案する。入力/トークン領域に基づく拡張モデルとして,ウェーブ・ツー・ウェーブ・トゥ・ウェーブ・トゥ・アウトプット,連続SSL機能・ツー・ツー・ケン,ウェーブ・ツー・ツー・ケンの4種類を検討する。
論文参考訳（メタデータ） (2026-02-04T05:02:15Z)
Recovering Performance in Speech Emotion Recognition from Discrete Tokens via Multi-Layer Fusion and Paralinguistic Feature Integration [28.470758433815423]
本稿では,音声感情認識(SER)のための離散トークンの包括的検討を行う。異なる層構成とk平均量子化粒度での性能劣化を定量化する。本稿では,(1)異なるレイヤから補完情報を取得するための注意ベースの多層融合,(2)パラ言語的手がかりを明示的に再導入するためのopenSMILE機能の統合,の2つの主要な戦略を提案する。
論文参考訳（メタデータ） (2026-01-23T07:57:05Z)
Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。 SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文参考訳（メタデータ） (2025-08-22T17:59:35Z)
Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文参考訳（メタデータ） (2025-06-23T15:30:50Z)
Challenges in Automated Processing of Speech from Child Wearables: The Case of Voice Type Classifier [44.40187506078601]
本稿では,音声タイプ分類法(Voice Type Classification)の1つの基本課題を改善することを目的とした,3年分の実験を要約することにより,進行を阻害するいくつかの障害を示す。提案実験により,表現特徴,アーキテクチャ,パラメータ探索の改善は,性能の限界ゲインにのみ寄与することが示唆された。データの関連性と量に注目することで、さらなる進歩が達成される。これは、データの共有を可能にする適切な権限を持つ収集の重要性を強調している。
論文参考訳（メタデータ） (2025-06-04T00:09:53Z)
Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space [10.875499903992782]
我々は、音声コマンド分類の特定のタスクに対して、合成音声データを用いてゼロショット学習に関する一連の実験を行う。 Google Speech Commands データセットの結果から,単純な ASR ベースのフィルタリング手法が生成したデータの品質に大きな影響を及ぼす可能性が示唆された。生成した音声データの品質は高いが,自己教師付き(WavLM)機能を用いることで,合成音声と実音声の区別が容易に可能であることを示す。
論文参考訳（メタデータ） (2024-09-19T13:07:55Z)
FASA: a Flexible and Automatic Speech Aligner for Extracting High-quality Aligned Children Speech Data [22.933382649048113]
そこで我々は,高品質な子どもの音声データを抽出するフレキシブルかつ自動的な音声整列器として,新しい強制調整ツールFASAを提案する。 CHILDESデータセットでの使用例を示し、FASAが人間のアノテーションよりも13.6$times$でデータ品質を改善することを示す。
論文参考訳（メタデータ） (2024-06-25T20:37:16Z)
SememeASR: Boosting Performance of End-to-End Speech Recognition against Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。実験の結果,セム情報により音声認識の有効性が向上することが示された。さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文参考訳（メタデータ） (2023-09-04T08:35:05Z)
Improving Fairness and Robustness in End-to-End Speech Recognition through unsupervised clustering [49.069298478971696]
エンド・ツー・エンドASRの公平性と堅牢性を改善するためのプライバシー保護手法を提案する。公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出する。モデル学習において,話者発話の埋め込みの代わりにクラスタIDを付加的な特徴として用いた。
論文参考訳（メタデータ） (2023-06-06T21:13:08Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文参考訳（メタデータ） (2022-08-28T10:03:55Z)
Content-Context Factorized Representations for Automated Speech Recognition [12.618527387900079]
本稿では、教師なしのエンコーダに依存しない音声エンコーダ表現を明示的なコンテンツエンコーダ表現と刺激的なコンテキストエンコーダ表現に分解する手法を提案する。我々は,標準的なASRベンチマークの性能向上に加えて,実環境と人工ノイズの両方のASRシナリオの性能向上を実証した。
論文参考訳（メタデータ） (2022-05-19T21:34:40Z)
WLASL-LEX: a Dataset for Recognising Phonological Properties in American Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文参考訳（メタデータ） (2022-03-11T17:21:24Z)
Unsupervised Automatic Speech Recognition: A Review [2.6212127510234797]
研究文献をレビューし、完全に教師なしのASRにつながる可能性のあるモデルとアイデアを特定します。本研究の目的は,音声データのみから学習できることの限界を特定し,音声認識の最小要件を理解することである。
論文参考訳（メタデータ） (2021-06-09T08:33:20Z)
An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文参考訳（メタデータ） (2021-06-05T06:19:14Z)
Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文参考訳（メタデータ） (2021-04-22T13:31:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。