論文の概要: Identification of primary and collateral tracks in stuttered speech
- arxiv url: http://arxiv.org/abs/2003.01018v1
- Date: Mon, 2 Mar 2020 16:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 05:05:44.382790
- Title: Identification of primary and collateral tracks in stuttered speech
- Title(参考訳): 発声音声における一次トラックと副トラックの同定
- Authors: Rachid Riad, Anne-Catherine Bachoud-L\'evi, Frank Rudzicz, Emmanuel
Dupoux
- Abstract要約: 臨床およびNLPパースペクティブに着想を得て, 拡散検出のための新しい評価フレームワークを提案する。
本稿では, 半方向性インタビューのコーパスから, 強制整列型ディスフルエンシデータセットを提案する。
単語ベースのスパン特徴を用いることで,音声による予測のベースラインよりも優れることを示す。
- 参考スコア(独自算出の注目度): 22.921077940732
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Disfluent speech has been previously addressed from two main perspectives:
the clinical perspective focusing on diagnostic, and the Natural Language
Processing (NLP) perspective aiming at modeling these events and detect them
for downstream tasks. In addition, previous works often used different metrics
depending on whether the input features are text or speech, making it difficult
to compare the different contributions. Here, we introduce a new evaluation
framework for disfluency detection inspired by the clinical and NLP perspective
together with the theory of performance from \cite{clark1996using} which
distinguishes between primary and collateral tracks. We introduce a novel
forced-aligned disfluency dataset from a corpus of semi-directed interviews,
and present baseline results directly comparing the performance of text-based
features (word and span information) and speech-based (acoustic-prosodic
information). Finally, we introduce new audio features inspired by the
word-based span features. We show experimentally that using these features
outperformed the baselines for speech-based predictions on the present dataset.
- Abstract(参考訳): 診断に焦点を当てた臨床的な視点と、これらのイベントをモデル化し下流タスクで検出することを目的とした自然言語処理(nlp)の視点である。
さらに、以前の研究では、入力された特徴がテキストか音声かによって異なるメトリクスを使用しており、異なるコントリビューションを比較するのが難しい。
そこで本研究では,臨床およびNLPの視点に触発された拡散検出のための新しい評価フレームワークと,一次トラックと副トラックを区別する \cite{clark 1996using} の性能理論を紹介する。
半指向型面接のコーパスから,新しい強制整合型不流動データセットを導入し,テキストに基づく特徴量(単語とスパン情報)と音声ベース(音響韻律情報)のパフォーマンスを直接比較したベースライン結果を提案する。
最後に、単語ベースのスパン機能にインスパイアされた新しい音声機能を紹介する。
そこで本研究では,これらの特徴を用いることで,音声に基づく予測のベースラインを上回っていることを実験的に示す。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Audio-Visual Neural Syntax Acquisition [91.14892278795892]
視覚的音声からの句構造誘導について検討する。
本稿では,音声を聴いたり,画像を見たりすることでフレーズ構造を学習するAV-NSL(Audio-Visual Neural Syntax Learner)について述べる。
論文 参考訳(メタデータ) (2023-10-11T16:54:57Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Learning utterance-level representations through token-level acoustic
latents prediction for Expressive Speech Synthesis [3.691712391306624]
細粒度潜在空間もまた粗粒度情報を捉えており、これは多彩な韻律表現を捉えるために潜在空間の次元が大きくなるにつれて明らかである。
本稿では、まず、豊富な音声属性をトークンレベル潜在空間にキャプチャし、入力テキストを付与した先行ネットワークを個別に訓練し、前ステップで抽出した音素レベル後潜在音を予測するために、発話レベル表現を学習することでこの問題を軽減する。
論文 参考訳(メタデータ) (2022-11-01T15:17:25Z) - Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues [7.332652485849632]
ヒトの幼児は、言語に関する最小限の事前知識で口頭語彙を取得する。
本研究では,音声単位を発見するための教師なし学習手法を提案する。
提案手法は教師なし学習を用いて音声信号から単語と音素を取得することができる。
論文 参考訳(メタデータ) (2022-01-18T07:31:59Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Deep Learning for Prominence Detection in Children's Read Speech [13.041607703862724]
子どもの読書記録のラベル付きデータセットを,話者に依存しない著名単語の検出のために検討する。
事前調整されたランダムフォレストアンサンブル予測器をRNNシーケンスに置き換え、潜在的なコンテキスト依存性を利用する。
深層学習を用いて、基本周波数、強度、スペクトル形状の低レベル音響輪郭から単語レベル特徴を得る。
論文 参考訳(メタデータ) (2021-04-12T14:15:08Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。