論文の概要: Prosodic segmentation for parsing spoken dialogue
- arxiv url: http://arxiv.org/abs/2105.12667v1
- Date: Wed, 26 May 2021 16:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 16:06:01.033156
- Title: Prosodic segmentation for parsing spoken dialogue
- Title(参考訳): 音声対話解析のための韻律セグメンテーション
- Authors: Elizabeth Nielsen, Mark Steedman, Sharon Goldwater
- Abstract要約: パーシング音声対話は、相反や目印のない境界など、独特な困難を生じさせる。
以前の研究は、韻律が不自由なスピーチを解析するのに役立っていることを示した。
プロソディは金標準SU境界を効果的に置き換えることができることを示す。
- 参考スコア(独自算出の注目度): 29.68201160277817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parsing spoken dialogue poses unique difficulties, including disfluencies and
unmarked boundaries between sentence-like units. Previous work has shown that
prosody can help with parsing disfluent speech (Tran et al. 2018), but has
assumed that the input to the parser is already segmented into sentence-like
units (SUs), which isn't true in existing speech applications. We investigate
how prosody affects a parser that receives an entire dialogue turn as input (a
turn-based model), instead of gold standard pre-segmented SUs (an SU-based
model). In experiments on the English Switchboard corpus, we find that when
using transcripts alone, the turn-based model has trouble segmenting SUs,
leading to worse parse performance than the SU-based model. However, prosody
can effectively replace gold standard SU boundaries: with prosody, the
turn-based model performs as well as the SU-based model (90.79 vs. 90.65 F1
score, respectively), despite performing two tasks (SU segmentation and
parsing) rather than one (parsing alone). Analysis shows that pitch and
intensity features are the most important for this corpus, since they allow the
model to correctly distinguish an SU boundary from a speech disfluency -- a
distinction that the model otherwise struggles to make.
- Abstract(参考訳): 音声対話のパーシングは、不一致や、文のような単位間の目印のない境界など、独特な困難を引き起こす。
以前の研究によると、prosodyは不均一なスピーチを解析するのに役立ちます(tran et al.)。
しかし、パーサーへの入力は、既存の音声アプリケーションでは正しくない文のような単位(SUs)に分割されていると仮定している。
入力として全対話を受信するパーサー(ターンベースモデル)に対して,ゴールド標準のSU(SUベースモデル)の代わりに韻律がどのように影響するかを検討する。
イングリッシュスイッチボードコーパスの実験では、書き起こしのみを使用する場合、ターンベースのモデルではsusのセグメント化に問題があり、suベースのモデルよりもパース性能が低下することが判明した。
しかし、prosodyは金の標準suバウンダリを効果的に置き換えることができる: prosodyでは、ターンベースのモデルはsuベースのモデル(それぞれ90.79対90.65 f1スコア)と同様に機能するが、1つではなく2つのタスク(suセグメンテーションとパース)を実行する(ペアリングのみ)。
分析によると、このコーパスにとってピッチと強度の特徴が最も重要であるのは、モデルがSU境界と音声の拡散を正しく区別できるようにするためである。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - What's Hard in English RST Parsing? Predictive Models for Error Analysis [16.927386793787463]
本稿では, 修辞構造論における解析困難に関連する要因について検討し, モデル化する。
以上の結果から,浅層談話解析において明示的・単純的区別が重要な役割を担っているが,長距離依存が主な課題であることが明らかとなった。
最終モデルは、ボトムアップで76.3%、トップダウンで76.6%の精度でエラーが発生するかを予測できる。
論文 参考訳(メタデータ) (2023-09-10T06:10:03Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Prosodic features improve sentence segmentation and parsing [28.41406899452548]
韻律が文に区切らない音声の構文解析に与える影響を示す。
韻律は、構文解析と文境界の同定に役立ちます。
論文 参考訳(メタデータ) (2023-02-23T17:03:36Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z) - Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。
本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-11T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。