論文の概要: Enhancing Naturalness in LLM-Generated Utterances through Disfluency Insertion
- arxiv url: http://arxiv.org/abs/2412.12710v1
- Date: Tue, 17 Dec 2024 09:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:31.431920
- Title: Enhancing Naturalness in LLM-Generated Utterances through Disfluency Insertion
- Title(参考訳): 拡散インサーションによるLLM発振の自然性向上
- Authors: Syed Zohaib Hassan, Pierre Lison, Pål Halvorsen,
- Abstract要約: 拡散は自然発声の自然な特徴であるが、大言語モデルの出力を欠いているのが一般的である。
障害の挿入によってこの欠点が緩和されることを示す。
- 参考スコア(独自算出の注目度): 3.410622989394589
- License:
- Abstract: Disfluencies are a natural feature of spontaneous human speech but are typically absent from the outputs of Large Language Models (LLMs). This absence can diminish the perceived naturalness of synthesized speech, which is an important criteria when building conversational agents that aim to mimick human behaviours. We show how the insertion of disfluencies can alleviate this shortcoming. The proposed approach involves (1) fine-tuning an LLM with Low-Rank Adaptation (LoRA) to incorporate various types of disfluencies into LLM-generated utterances and (2) synthesizing those utterances using a text-to-speech model that supports the generation of speech phenomena such as disfluencies. We evaluated the quality of the generated speech across two metrics: intelligibility and perceived spontaneity. We demonstrate through a user study that the insertion of disfluencies significantly increase the perceived spontaneity of the generated speech. This increase came, however, along with a slight reduction in intelligibility.
- Abstract(参考訳): 拡散は自然発声の自然な特徴であるが、典型的にはLarge Language Models (LLMs) の出力を欠いている。
この欠如は、人間の行動の模倣を目的とした会話エージェントを構築する際に重要な基準である合成音声の知覚自然性を低下させる可能性がある。
障害の挿入によってこの欠点が緩和されることを示す。
提案手法は,(1)低ランク適応 (LoRA) を用いたLLMの微調整により,LLM生成音声に様々な種類の不一致を組み込むこと,(2)不一致などの音声現象の生成を支援するテキスト音声モデルを用いてそれらの発話を合成することを含む。
音声の質を2つの指標(知能と自発性)で評価した。
本研究では,不一致の挿入が生成した音声の自発性を大幅に向上させることを示す。
しかし、この増加は、知性もわずかに低下した。
関連論文リスト
- Investigating the Effects of Diffusion-based Conditional Generative Speech Models Used for Speech Enhancement on Dysarthric Speech [7.787211625411271]
本研究は, 理想的な非雑音環境下で記録された変形性音声データの強調過程において, 音響的変形性音声手がかりのいくつかが失われることを実験的に示す。
特徴空間内の入力音声信号と融合した場合に,残響音声信号の形で拡張モデルにより除去された音響的手がかりが相補的な外科的手がかりとなることを示す。
論文 参考訳(メタデータ) (2024-12-18T15:18:05Z) - Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-05T16:35:25Z) - Towards Hierarchical Spoken Language Dysfluency Modeling [8.45042473491412]
言語障害モデリングは、言語療法と言語学習の両方においてボトルネックとなる。
UDMの階層的拡張であるH-UDM(Hierarchical Unconstrained Disfluency Modeling)アプローチを提案する。
実験結果から,提案手法の有効性と信頼性が明らかとなった。
論文 参考訳(メタデータ) (2024-01-18T14:33:01Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文 参考訳(メタデータ) (2023-08-31T09:50:33Z) - Pathological voice adaptation with autoencoder-based voice conversion [15.687800631199616]
音源として健全な音声を使用する代わりに、既存の病的音声サンプルを新しい話者の音声特性にカスタマイズする。
この手法は,典型的な音声を病的音声に変換する際に通常持つ評価問題を緩和する。
論文 参考訳(メタデータ) (2021-06-15T20:38:10Z) - On-the-Fly Attention Modularization for Neural Generation [54.912042110885366]
生成したテキストは反復的であり,汎用的であり,自己矛盾であり,常識を欠いている。
本研究は,インダクティブバイアスを推論中に注入する簡易かつ効果的な手法である,オンザフライアテンション・モダナイゼーションを動機とする。
論文 参考訳(メタデータ) (2021-01-02T05:16:46Z) - Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit [39.258370942013165]
TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
論文 参考訳(メタデータ) (2020-08-13T02:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。