論文の概要: Analysis of Disfluency in Children's Speech
- arxiv url: http://arxiv.org/abs/2010.04293v1
- Date: Thu, 8 Oct 2020 22:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:14:54.614418
- Title: Analysis of Disfluency in Children's Speech
- Title(参考訳): 子どもの発話における拡散の分析
- Authors: Trang Tran, Morgan Tinkler, Gary Yeung, Abeer Alwan, Mari Ostendorf
- Abstract要約: 対象児26名(年齢5~8歳)の自覚的説明の非効率性を示す新しいデータセットを提案する。
子どもたちは、拡散率とフィラー率が高く、鼻腔充填の停止を頻繁に使う傾向があり、平均すると修復よりも長い逆行性を示す。
違いはあるものの、大人(スイッチボード)の音声書き起こしで訓練された自動不規則検出システムは、子どもの音声に対して合理的に良好に機能する。
- 参考スコア(独自算出の注目度): 25.68434431663045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disfluencies are prevalent in spontaneous speech, as shown in many studies of
adult speech. Less is understood about children's speech, especially in
pre-school children who are still developing their language skills. We present
a novel dataset with annotated disfluencies of spontaneous explanations from 26
children (ages 5--8), interviewed twice over a year-long period. Our
preliminary analysis reveals significant differences between children's speech
in our corpus and adult spontaneous speech from two corpora (Switchboard and
CallHome). Children have higher disfluency and filler rates, tend to use nasal
filled pauses more frequently, and on average exhibit longer reparandums than
repairs, in contrast to adult speakers. Despite the differences, an automatic
disfluency detection system trained on adult (Switchboard) speech transcripts
performs reasonably well on children's speech, achieving an F1 score that is
10\% higher than the score on an adult out-of-domain dataset (CallHome).
- Abstract(参考訳): 分散は、成人スピーチの多くの研究で示されているように、自然発話でよく見られる。
子どものスピーチ、特にまだ言語スキルを身につけている幼児についてはあまり理解されていない。
そこで本研究では,26歳児(5~8歳)の自発的説明に注釈付き不均一性を示す新しいデータセットを提案する。
予備分析では,2つのコーパス (Switchboard と CallHome) から発声した子どもの発話と成人の自然発話との間に有意な差異が認められた。
子どもたちは、拡散率とフィラー率が高く、鼻腔充填停止が頻繁に使用される傾向があり、成人の話者とは対照的に、修理よりも長い口蓋を見せる傾向にある。
これらの違いにもかかわらず、大人(スイッチボード)音声書き起こしで訓練された自動不規則検出システムは、子どもの発話に対して合理的に良好に動作し、成人のアウトオブドメインデータセット(CallHome)のスコアよりも10倍高いF1スコアを達成する。
関連論文リスト
- Evaluation of state-of-the-art ASR Models in Child-Adult Interactions [27.30130353688078]
音声基礎モデルでは, 成人の発話と比較して, 子どもの発話に対する顕著な性能低下(15-20%絶対WER)がみられた。
低資源環境下での微調整の有効性を探索するために,最良性能のゼロショットモデル(Whisper-large)にLoRAを用いる。
論文 参考訳(メタデータ) (2024-09-24T14:42:37Z) - Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文 参考訳(メタデータ) (2023-06-26T08:48:08Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Improving Children's Speech Recognition by Fine-tuning Self-supervised
Adult Speech Representations [2.2191297646252646]
幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。
近年の自己教師型学習の進歩は、このデータ不足の問題を克服する新たな機会を生み出している。
子どもの音声認識のためのモデルを構築するために,自己指導型成人音声表現を活用し,よく知られた幼児音声コーパスを3つ利用した。
論文 参考訳(メタデータ) (2022-11-14T22:03:36Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - How Adults Understand What Young Children Say [1.416276307599112]
子供の初期のスピーチは、形や内容において大人のスピーチとほとんど似ていないことが多いが、介護者は幼児の発話で意味を見出すことが多い。
早期コミュニケーションの成功は,子どもの言語知識の増大だけでなく,大人の高度な推論にも依存すると考えられる。
論文 参考訳(メタデータ) (2022-06-15T20:37:32Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Child-directed Listening: How Caregiver Inference Enables Children's
Early Verbal Communication [2.9331097393290837]
我々は、大人が子どもの言葉のうるささを克服する方法を理解するために、ベイズ語モデルを用いています。
音声でアノテートしたコーパス上での競合モデルの評価により, 子どもの言語環境に特化して適合する事前の期待により, 成人の回復した意味を最もよく予測できることを示す。
論文 参考訳(メタデータ) (2021-02-06T00:54:34Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Learning to Understand Child-directed and Adult-directed Speech [18.29692441616062]
人間の言語習得研究は、児童指向の音声が言語学習者に役立つことを示している。
成人指向音声(ADS)と子ども指向音声(CDS)で訓練されたモデルのタスク性能の比較を行った。
CDSが学習の初期段階で有効であることを示す指標が得られたが、最終的には、ADSでトレーニングされたモデルは、同等のタスクパフォーマンスに達し、より一般化される。
論文 参考訳(メタデータ) (2020-05-06T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。