論文の概要: Investigating the Utility of Surprisal from Large Language Models for
Speech Synthesis Prosody
- arxiv url: http://arxiv.org/abs/2306.09814v1
- Date: Fri, 16 Jun 2023 12:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 13:49:43.444589
- Title: Investigating the Utility of Surprisal from Large Language Models for
Speech Synthesis Prosody
- Title(参考訳): 音声合成韻律のための大規模言語モデルからの助詞の有効性の検討
- Authors: Sofoklis Kakouros, Juraj \v{S}imko, Martti Vainio, Antti Suni
- Abstract要約: 本稿では,音声の韻律合成を支援する機能として,ある文脈における単語の予測可能性の尺度である単語代名詞の使用について検討する。
様々な大きさの英語テキストと大言語モデル(LLM)を用いて実験を行う。
語源と語長は適度に相関し,関連性はあるものの言語使用の異なる側面を捉えていることが示唆された。
- 参考スコア(独自算出の注目度): 4.081433571732691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the use of word surprisal, a measure of the
predictability of a word in a given context, as a feature to aid speech
synthesis prosody. We explore how word surprisal extracted from large language
models (LLMs) correlates with word prominence, a signal-based measure of the
salience of a word in a given discourse. We also examine how context length and
LLM size affect the results, and how a speech synthesizer conditioned with
surprisal values compares with a baseline system. To evaluate these factors, we
conducted experiments using a large corpus of English text and LLMs of varying
sizes. Our results show that word surprisal and word prominence are moderately
correlated, suggesting that they capture related but distinct aspects of
language use. We find that length of context and size of the LLM impact the
correlations, but not in the direction anticipated, with longer contexts and
larger LLMs generally underpredicting prominent words in a nearly linear
manner. We demonstrate that, in line with these findings, a speech synthesizer
conditioned with surprisal values provides a minimal improvement over the
baseline with the results suggesting a limited effect of using surprisal values
for eliciting appropriate prominence patterns.
- Abstract(参考訳): 本稿では,音声合成の韻律的特徴として,与えられた文脈における単語の予測可能性の尺度であるword surprisalの使用について検討する。
大規模言語モデル(llm)から抽出された単語の超越性は、ある談話における単語の敬礼の信号に基づく尺度である単語の隆起とどのように相関するかを検討する。
また、文脈長とllmサイズが結果にどう影響するか、超越値条件付き音声合成器とベースラインシステムとの比較について検討した。
これらの因子を評価するために,大容量の英語テキストとLLMを用いて実験を行った。
以上の結果から,単語の代名詞的および代名詞的特徴は中程度に相関していることが示唆された。
LLMの文脈と大きさの長さは相関に影響を及ぼすが、予測される方向ではなく、より長い文脈とより大きなLLMは概ね線形な方法で顕著な単語を予測できない。
これらの結果から, 基本値の条件付き音声合成器は, 基準値に対する改善が最小限に抑えられ, 適切な韻律パターンを導出するために, 基本値を用いる効果が限られていることが示される。
関連論文リスト
- Investigating large language models for their competence in extracting grammatically sound sentences from transcribed noisy utterances [1.3597551064547497]
人間は、意味的に重要な内容と音声特有のノイズを区別する優れた認知能力を示す。
本研究では,大言語モデル (LLM) が類似語理解タスクを効果的に実行できるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T14:55:20Z) - Confabulation: The Surprising Value of Large Language Model Hallucinations [0.7249731529275342]
ナラティビティを認知的資源として活用するために,LLMのコミュニケーションの計測可能な意味的特性は,人間の正当性を反映している,と我々は主張する。
この発見は、通常、非難の否定的な理解の中で緊張を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-06T15:32:29Z) - Quantifying In-Context Reasoning Effects and Memorization Effects in LLMs [101.51435599249234]
大規模言語モデル (LLM) が用いた, 正確な記憶と文脈内推論効果を定義し, 定量化するための公理系を提案する。
具体的には,公理系により,記憶効果を基礎記憶効果とカオス記憶効果に分類することができる。
実験により, 暗記効果と文脈内推論効果の明確な乱れが, LLMによって符号化された詳細な推論パターンの簡易な検証を可能にした。
論文 参考訳(メタデータ) (2024-05-20T08:51:03Z) - Word Importance Explains How Prompts Affect Language Model Outputs [0.7223681457195862]
本研究では,個々の単語をインプロンプトで変化させることにより,大規模言語モデルの説明可能性を向上させる手法を提案する。
古典的注目とは違って、単語の重要度は、任意に定義されたテキストスコアに対する急進的な単語の影響を測定する。
その結果,単語の重要度スコアは,複数のスコア機能において期待される接尾辞の重要度と密接に関連していることがわかった。
論文 参考訳(メタデータ) (2024-03-05T15:04:18Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。