論文の概要: On the Role of Style in Parsing Speech with Neural Models
- arxiv url: http://arxiv.org/abs/2010.04288v1
- Date: Thu, 8 Oct 2020 22:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:15:08.302981
- Title: On the Role of Style in Parsing Speech with Neural Models
- Title(参考訳): ニューラルモデルを用いたパーシング音声におけるスタイルの役割について
- Authors: Trang Tran, Jiahong Yuan, Yang Liu, Mari Ostendorf
- Abstract要約: 本研究は, 自然発話の構文解析を改善するために, テキストによるニューラルアプローチが有用であることを示す。
読み書きと自然発話の非対称的な劣化がみられた。
- 参考スコア(独自算出の注目度): 25.442727974788255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The differences in written text and conversational speech are substantial;
previous parsers trained on treebanked text have given very poor results on
spontaneous speech. For spoken language, the mismatch in style also extends to
prosodic cues, though it is less well understood. This paper re-examines the
use of written text in parsing speech in the context of recent advances in
neural language processing. We show that neural approaches facilitate using
written text to improve parsing of spontaneous speech, and that prosody further
improves over this state-of-the-art result. Further, we find an asymmetric
degradation from read vs. spontaneous mismatch, with spontaneous speech more
generally useful for training parsers.
- Abstract(参考訳): 文字と会話音声の違いは極めて大きいが、木々で訓練された以前のパーサーは自然発話に非常に悪い結果をもたらした。
音声言語では、スタイルミスマッチは韻律的手がかりにも及ぶが、あまりよく理解されていない。
本稿では,近年のニューラルネットワーク処理の進歩を背景として,音声解析におけるテキストの利用を再検討する。
本研究は, 自発音声のパーシングを改善するために, 書き起こしテキストの活用が促進されることを示し, プロソディは, この最先端の結果よりもさらに改善されていることを示す。
さらに,自然発話がパーサーの学習に有用であるように,読み取りと自発的ミスマッチの非対称な劣化がみられた。
関連論文リスト
- Continuous Speech Tokenizer in Text To Speech [27.057221389827735]
本稿では,連続音声トークンに基づく簡易かつ効果的な連続音声トークン化手法とテキスト音声合成モデルを提案する。
この結果から,連続音声認識を用いた音声モデルの方が連続性が高く,平均オピニオンスコア(MoS)が高いことがわかった。
この拡張は、周波数領域における低周波および高周波の両方にわたる連続音声認識器の情報保存率の向上に起因する。
論文 参考訳(メタデータ) (2024-10-22T15:02:37Z) - Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach [14.5696754689252]
音声言語モデリングの最近の進歩は、音声から直接言語を学ぶことが可能であることを示している。
音素分類に基づく微調整音声表現モデルにより、より文脈不変な表現が得られることを示す。
論文 参考訳(メタデータ) (2024-09-16T10:29:15Z) - Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - Audio-Visual Neural Syntax Acquisition [91.14892278795892]
視覚的音声からの句構造誘導について検討する。
本稿では,音声を聴いたり,画像を見たりすることでフレーズ構造を学習するAV-NSL(Audio-Visual Neural Syntax Learner)について述べる。
論文 参考訳(メタデータ) (2023-10-11T16:54:57Z) - Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文 参考訳(メタデータ) (2023-08-31T09:50:33Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Transcribing Natural Languages for The Deaf via Neural Editing Programs [84.0592111546958]
本研究の目的は,難聴者コミュニティのための自然言語文の書き起こしを目的とし,手話の発声を指示するグロス化の課題について検討することである。
以前のシーケンス・ツー・シーケンス言語モデルは、しばしば2つの異なる言語間の豊かな関係を捉えず、不満足な書き起こしにつながる。
異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
論文 参考訳(メタデータ) (2021-12-17T16:21:49Z) - Fluent and Low-latency Simultaneous Speech-to-Speech Translation with
Self-adaptive Training [40.71155396456831]
音声から音声への同時翻訳は広く有用であるが,極めて困難である。
ソース言語音声と並行してターゲット言語音声を生成する必要があるが、わずか数秒遅れている。
現在のアプローチは、話者がより速く話すときの遅延を徐々に蓄積し、話者がゆっくり話すときの不自然な停止を導入する。
そこで本稿では,翻訳の長さを柔軟に調整し,異なる音源の音声レートに対応する自己適応翻訳(SAT)を提案する。
論文 参考訳(メタデータ) (2020-10-20T06:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。