Fugu-MT 論文翻訳(概要): Child Speech Recognition in Human-Robot Interaction: Problem Solved?

論文の概要: Child Speech Recognition in Human-Robot Interaction: Problem Solved?

arxiv url: http://arxiv.org/abs/2404.17394v2
Date: Tue, 19 Nov 2024 10:27:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.083535
Title: Child Speech Recognition in Human-Robot Interaction: Problem Solved?
Title（参考訳）: 人間とロボットのインタラクションにおける子どもの音声認識:課題解決は?
Authors: Ruben Janssens, Eva Verhelst, Giulio Antonio Abbo, Qiaoqiao Ren, Maria Jose Pinto Bernal, Tony Belpaeme,
Abstract要約: 我々は、2017年からの子どもの音声認識に関する研究を再考し、実際に性能が向上したことを示す。 Newcomer OpenAI Whisperは、主要な商用クラウドサービスよりもはるかに優れている。転写はまだ完璧ではないが、最高のモデルは文の60.3%を正しく認識し、小さな文法的な違いを抑える。
参考スコア（独自算出の注目度）: 0.024739484546803334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated Speech Recognition shows superhuman performance for adult English speech on a range of benchmarks, but disappoints when fed children's speech. This has long sat in the way of child-robot interaction. Recent evolutions in data-driven speech recognition, including the availability of Transformer architectures and unprecedented volumes of training data, might mean a breakthrough for child speech recognition and social robot applications aimed at children. We revisit a study on child speech recognition from 2017 and show that indeed performance has increased, with newcomer OpenAI Whisper doing markedly better than leading commercial cloud services. Performance improves even more in highly structured interactions when priming models with specific phrases. While transcription is not perfect yet, the best model recognises 60.3% of sentences correctly barring small grammatical differences, with sub-second transcription time running on a local GPU, showing potential for usable autonomous child-robot speech interactions.
Abstract（参考訳）: 自動音声認識は、成人英語の音声に対して、様々なベンチマークで超人的パフォーマンスを示すが、子供の音声を流すと失望する。これは長い間、子供とロボットの相互作用の仕方で行われてきた。トランスフォーマーアーキテクチャや前例のない量のトレーニングデータなど、データ駆動型音声認識の最近の進化は、子供向け音声認識とソーシャルロボット応用のブレークスルーを意味する可能性がある。我々は2017年からの児童音声認識の研究を再考し、実際にパフォーマンスが向上し、新参のOpenAI Whisperは、主要な商用クラウドサービスよりも大幅に向上したことを示している。特定のフレーズを持つモデルをプライミングする場合、高度に構造化された相互作用において、パフォーマンスはさらに向上する。書き起こしはまだ完璧ではないが、最良のモデルは60.3%の文が文法的差異を正しく保っていることを認識しており、ローカルGPU上で2秒以下の書き起こし時間が実行され、使用可能な自律的な子ロボット音声対話の可能性を示している。

関連論文リスト

Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning [9.670752318129326]
まず, フランス語音声における音素認識に適応したwav2vec 2.0, HuBERT, WavLMモデルを比較した。次に,子音の微調整中に変圧器ブロックを解凍することで適応する。 We show that WavLM base+ is more robust to various reading task and noise levels。
論文参考訳（メタデータ） (2025-03-06T18:57:16Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文参考訳（メタデータ） (2024-04-08T15:21:17Z)
A comparative analysis between Conformer-Transducer, Whisper, and wav2vec2 for improving the child speech recognition [2.965450563218781]
幼児音声におけるコンフォーマー・トランスデューサモデルの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。また、Whisper と wav2vec2 を異なる子音声データセットに適応させる。
論文参考訳（メタデータ） (2023-11-07T19:32:48Z)
Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文参考訳（メタデータ） (2023-08-21T17:59:02Z)
Automatic Speech Recognition of Non-Native Child Speech for Language Learning Applications [18.849741353784328]
我々は、最先端のASRシステムであるWav2Vec2.0とWhisper AIの性能を評価する。オランダ語母語,非母語母語母語,非母語母語母語,母語母語母語母語母語,母語母語母語母語母語,母語母語母語母語母語母語母語母語,母語母語母語母語母語母語母語母語,母語母語母語母語母語母語
論文参考訳（メタデータ） (2023-06-29T06:14:26Z)
Improving Children's Speech Recognition by Fine-tuning Self-supervised Adult Speech Representations [2.2191297646252646]
幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。近年の自己教師型学習の進歩は、このデータ不足の問題を克服する新たな機会を生み出している。子どもの音声認識のためのモデルを構築するために,自己指導型成人音声表現を活用し,よく知られた幼児音声コーパスを3つ利用した。
論文参考訳（メタデータ） (2022-11-14T22:03:36Z)
Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文参考訳（メタデータ） (2022-06-19T12:57:47Z)
Accented Speech Recognition Inspired by Human Perception [0.0]
本論文では,アクセント音声の認識のためのパフォーマンス改善の可能性を評価するために,人間の知覚に触発された手法を検討する。我々は、複数のアクセントへの事前露出、graphemeと音素に基づく発音、ドロップアウト、特にアクセントモデリングに関連付けられるニューラルネットワークのレイヤの識別の4つの手法を検討した。本研究では, 人間の知覚に基づく手法が, WER の低減と, ニューラルネットワークにおけるアクセント音声のモデル化方法の理解に有望であることを示した。
論文参考訳（メタデータ） (2021-04-09T22:35:09Z)
Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。 ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文参考訳（メタデータ） (2021-01-21T05:55:29Z)
Self-supervised reinforcement learning for speaker localisation with the iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-12T18:02:15Z)
Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文参考訳（メタデータ） (2020-06-20T16:32:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。