論文の概要: Investigating the Utility of Surprisal from Large Language Models for
Speech Synthesis Prosody
- arxiv url: http://arxiv.org/abs/2306.09814v1
- Date: Fri, 16 Jun 2023 12:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 13:49:43.444589
- Title: Investigating the Utility of Surprisal from Large Language Models for
Speech Synthesis Prosody
- Title(参考訳): 音声合成韻律のための大規模言語モデルからの助詞の有効性の検討
- Authors: Sofoklis Kakouros, Juraj \v{S}imko, Martti Vainio, Antti Suni
- Abstract要約: 本稿では,音声の韻律合成を支援する機能として,ある文脈における単語の予測可能性の尺度である単語代名詞の使用について検討する。
様々な大きさの英語テキストと大言語モデル(LLM)を用いて実験を行う。
語源と語長は適度に相関し,関連性はあるものの言語使用の異なる側面を捉えていることが示唆された。
- 参考スコア(独自算出の注目度): 4.081433571732691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the use of word surprisal, a measure of the
predictability of a word in a given context, as a feature to aid speech
synthesis prosody. We explore how word surprisal extracted from large language
models (LLMs) correlates with word prominence, a signal-based measure of the
salience of a word in a given discourse. We also examine how context length and
LLM size affect the results, and how a speech synthesizer conditioned with
surprisal values compares with a baseline system. To evaluate these factors, we
conducted experiments using a large corpus of English text and LLMs of varying
sizes. Our results show that word surprisal and word prominence are moderately
correlated, suggesting that they capture related but distinct aspects of
language use. We find that length of context and size of the LLM impact the
correlations, but not in the direction anticipated, with longer contexts and
larger LLMs generally underpredicting prominent words in a nearly linear
manner. We demonstrate that, in line with these findings, a speech synthesizer
conditioned with surprisal values provides a minimal improvement over the
baseline with the results suggesting a limited effect of using surprisal values
for eliciting appropriate prominence patterns.
- Abstract(参考訳): 本稿では,音声合成の韻律的特徴として,与えられた文脈における単語の予測可能性の尺度であるword surprisalの使用について検討する。
大規模言語モデル(llm)から抽出された単語の超越性は、ある談話における単語の敬礼の信号に基づく尺度である単語の隆起とどのように相関するかを検討する。
また、文脈長とllmサイズが結果にどう影響するか、超越値条件付き音声合成器とベースラインシステムとの比較について検討した。
これらの因子を評価するために,大容量の英語テキストとLLMを用いて実験を行った。
以上の結果から,単語の代名詞的および代名詞的特徴は中程度に相関していることが示唆された。
LLMの文脈と大きさの長さは相関に影響を及ぼすが、予測される方向ではなく、より長い文脈とより大きなLLMは概ね線形な方法で顕著な単語を予測できない。
これらの結果から, 基本値の条件付き音声合成器は, 基準値に対する改善が最小限に抑えられ, 適切な韻律パターンを導出するために, 基本値を用いる効果が限られていることが示される。
関連論文リスト
- Word Importance Explains How Prompts Affect Language Model Outputs [0.7223681457195862]
本研究では,個々の単語をインプロンプトで変化させることにより,大規模言語モデルの説明可能性を向上させる手法を提案する。
古典的注目とは違って、単語の重要度は、任意に定義されたテキストスコアに対する急進的な単語の影響を測定する。
その結果,単語の重要度スコアは,複数のスコア機能において期待される接尾辞の重要度と密接に関連していることがわかった。
論文 参考訳(メタデータ) (2024-03-05T15:04:18Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [70.77449818379056]
本稿では,幻覚検出指標が英語以外の言語でどのように機能するかを理解するためのギャップを埋めることを目的とする。
語彙的メトリクスや自然言語推論(NLI)に基づくメトリクスなど,さまざまな検出指標の有効性を評価する。
我々の経験的分析により,語彙的指標は限られた有効性を示すが,NLIに基づく指標は文レベルでの高リソース言語では良好に機能することがわかった。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Beware of Words: Evaluating the Lexical Richness of Conversational Large
Language Models [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Information-Theoretic Characterization of Vowel Harmony: A
Cross-Linguistic Study on Word Lists [18.138642719651994]
自然言語辞書における母音の予測可能性に基づく調和性の情報理論的尺度を定義する。
音素レベル言語モデル(PLM)を用いてこの調和性を推定する。
我々の研究は、単語リストが類型研究にとって貴重な資源であることを実証している。
論文 参考訳(メタデータ) (2023-08-09T11:32:16Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - Discourse Context Predictability Effects in Hindi Word Order [14.88833412862455]
文中の単語と構文構造が次の文の語順にどのように影響するかを検討する。
我々は,言論に基づく多くの特徴と認知的特徴を用いて,依存関係の長さ,前提,情報状態などの予測を行う。
情報ステータスとLSTMに基づく談話予測が単語の順序選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2022-10-25T11:53:01Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。