論文の概要: A Linguistically Motivated Analysis of Intonational Phrasing in Text-to-Speech Systems: Revealing Gaps in Syntactic Sensitivity
- arxiv url: http://arxiv.org/abs/2505.22236v1
- Date: Wed, 28 May 2025 11:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.56738
- Title: A Linguistically Motivated Analysis of Intonational Phrasing in Text-to-Speech Systems: Revealing Gaps in Syntactic Sensitivity
- Title(参考訳): 音声合成システムにおける言語学的モチベーション分析 : 統語的感性におけるギャップの解明
- Authors: Charlotte Pouw, Afra Alishahi, Willem Zuidema,
- Abstract要約: 我々は、心理言語学的研究にインスパイアされた手法を用いて、テキスト音声(TTS)システムの統語感度を解析した。
TTSシステムは,構文境界が曖昧な文において,国際句境界を正確に生成するのに苦労していることがわかった。
構文的境界位置のコマを含まない文でモデルを微調整し、より微妙な言語的手がかりに焦点を合わせるよう促す。
- 参考スコア(独自算出の注目度): 3.7332349900024013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze the syntactic sensitivity of Text-to-Speech (TTS) systems using methods inspired by psycholinguistic research. Specifically, we focus on the generation of intonational phrase boundaries, which can often be predicted by identifying syntactic boundaries within a sentence. We find that TTS systems struggle to accurately generate intonational phrase boundaries in sentences where syntactic boundaries are ambiguous (e.g., garden path sentences or sentences with attachment ambiguity). In these cases, systems need superficial cues such as commas to place boundaries at the correct positions. In contrast, for sentences with simpler syntactic structures, we find that systems do incorporate syntactic cues beyond surface markers. Finally, we finetune models on sentences without commas at the syntactic boundary positions, encouraging them to focus on more subtle linguistic cues. Our findings indicate that this leads to more distinct intonation patterns that better reflect the underlying structure.
- Abstract(参考訳): 我々は、心理言語学的研究にインスパイアされた手法を用いて、テキスト音声(TTS)システムの統語感度を解析した。
具体的には,文内の統語的境界を識別することで,しばしば予測できる,非国語句境界の生成に焦点をあてる。
構文的境界があいまいな文(例えば、庭の道の文や、アタッチメントのあいまいさのある文)において、TSシステムでは、非国語句境界を正確に生成することは困難である。
これらの場合、システムはコマのような表面的な手がかりを必要とし、境界を正しい位置に配置する。
対照的に、より単純な構文構造を持つ文に対しては、システムは表面マーカーを超えた構文的手がかりを取り入れている。
最後に,構文的境界位置のコマを含まない文のモデルを微調整し,より微妙な言語的手がかりに焦点を合わせることを奨励する。
以上の結果から, 基礎構造をよりよく反映した, より明確な内在パターンがもたらされることが示唆された。
関連論文リスト
- Investigating large language models for their competence in extracting grammatically sound sentences from transcribed noisy utterances [1.3597551064547497]
人間は、意味的に重要な内容と音声特有のノイズを区別する優れた認知能力を示す。
本研究では,大言語モデル (LLM) が類似語理解タスクを効果的に実行できるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T14:55:20Z) - Discourse-Aware Text Simplification: From Complex Sentences to Linked
Propositions [11.335080241393191]
Text Simplification (TS)は、テキストの処理を容易にするために文を変更することを目的としている。
本稿では、複雑な英語文を分割し、言い換える、談話対応のTSアプローチを提案する。
単純化された文の上に意味層を置く最小命題のセマンティック階層を生成する。
論文 参考訳(メタデータ) (2023-08-01T10:10:59Z) - Information-Restricted Neural Language Models Reveal Different Brain
Regions' Sensitivity to Semantics, Syntax and Context [87.31930367845125]
テキストコーパスを用いて語彙言語モデルGloveと超語彙言語モデルGPT-2を訓練した。
そして、これらの情報制限されたモデルが、自然主義的テキストを聴く人間のfMRI信号の時間軸を予測することができるかを評価した。
分析の結果、言語に関わるほとんどの脳領域は、構文変数と意味変数の両方に敏感であるが、これらの影響の相対的な大きさは、これらの領域で大きく異なることがわかった。
論文 参考訳(メタデータ) (2023-02-28T08:16:18Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z) - Grammar Detection for Sentiment Analysis through Improved Viterbi
Algorithm [0.0]
音声タグ付けの一部は、名詞、動詞、形容詞、副詞などを含む文の各単語を指定・タグ付けするタスクである。
このPOSタグを用いた感性分析は、特定のトピックについて、より広範な大衆の要約を促すのに役立ちます。
論文 参考訳(メタデータ) (2022-05-26T04:40:31Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - Reinforcement learning of minimalist grammars [0.5862282909017474]
最先端の言語技術は、関連するキーワードに対して音響解析された音声信号をスキャンする。
単語はセマンティックスロットに挿入され、ユーザの意図を解釈する。
メンタルレキシコンは、ユーザとのインタラクション中に認知エージェントによって取得されなければならない。
論文 参考訳(メタデータ) (2020-04-30T14:25:58Z) - A Benchmark for Systematic Generalization in Grounded Language
Understanding [61.432407738682635]
人間は慣れ親しんだ部分から成り立つ不慣れな状況を記述する表現を容易に解釈する。
対照的に、現代のニューラルネットワークは、新しい構成を理解するのに苦労している。
位置言語理解における合成一般化を評価するための新しいベンチマークであるgSCANを導入する。
論文 参考訳(メタデータ) (2020-03-11T08:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。