論文の概要: Train & Constrain: Phonologically Informed Tongue-Twister Generation from Topics and Paraphrases
- arxiv url: http://arxiv.org/abs/2403.13901v3
- Date: Fri, 18 Oct 2024 15:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:22:36.878578
- Title: Train & Constrain: Phonologically Informed Tongue-Twister Generation from Topics and Paraphrases
- Title(参考訳): トレイン・アンド・コンストレイン:トピックとパラフレーズから音韻的にインフォームドされたトング・ツイスター生成
- Authors: Tyler Loakman, Chen Tang, Chenghua Lin,
- Abstract要約: 大言語モデル(LLM)から音韻的に情報を得た舌ねじれ音を生成するパイプラインを提案する。
生成されたデータセットに基づいてトレーニングした小型モデルの自動評価と人的評価の結果を示す。
本稿では,自動回帰言語モデルに統合可能な,音素認識型制約付き復号モジュール(PACD)を提案する。
- 参考スコア(独自算出の注目度): 24.954896926774627
- License:
- Abstract: Previous work in phonologically and phonetically grounded language generation has mainly focused on domains such as puns and poetry. In this article, we present new work on the generation of English tongue twisters - a form of language that is required to be conditioned on a phoneme level to maximize sound overlap, while maintaining semantic consistency with an input topic or phrase and still being grammatically correct. We present TwisterLister, a pipeline for generating phonologically informed tongue twisters from large language models (LLMs) that we use to generate TwistList 2.0, the largest annotated dataset of tongue twisters to date, consisting of 17K+ examples from a combination of human and LLM authors. Our generation pipeline involves the use of a phonologically constrained vocabulary alongside LLM prompting to generate novel, non-derivative tongue twister examples. We additionally present the results of automatic and human evaluation of smaller models trained on our generated dataset to demonstrate the extent to which phonologically motivated language types can be generated without explicit injection of phonological knowledge. Additionally, we introduce a phoneme-aware constrained decoding module (PACD) that can be integrated into an autoregressive language model and demonstrate that this method generates good quality tongue twisters both with and without fine-tuning the underlying language model. We also design and implement a range of automatic metrics for the task of tongue twister generation that is phonologically motivated and captures the unique essence of tongue twisters, primarily based on phonemic edit distance (PED)
- Abstract(参考訳): 音韻学的・音声学的に根ざした言語生成の先行研究は、主に句や詩などの領域に焦点を当てている。
本稿では,入力話題やフレーズとのセマンティックな整合性を維持しつつ,文法的正確性を維持しつつ,音素レベルで条件を定めなければならない言語である,英語舌ツイスターの生成に関する新たな研究について述べる。
提案するTwisterListerは,人間の言語モデル(LLM)から音韻的に入力された舌ねじれ音を生成するパイプラインであり,人間の言語モデルとLLMの著者の組み合わせによる17K以上の例からなる,舌ねじれ音のアノテートデータセットであるTwistList 2.0を生成する。
我々の生成パイプラインは、LLMと共に音韻的に制約された語彙を用いることで、新規な非派生的な舌ねじれの例を生成する。
さらに, 音声学的知識を明示的に注入することなく, 音韻的動機付け言語が生成できる範囲を示すために, 生成されたデータセット上で訓練された小型モデルの自動的, 人為的評価結果も提示する。
さらに、自動回帰言語モデルに統合可能な音素制約付きデコードモジュール(PACD)を導入し、基礎となる言語モデルを微調整することなく良質な舌ねじれを生成することを示した。
また,主に音素編集距離(PED)に基づいて,音韻的に動機付けされ,舌ねじり器の独特な本質を捉えた舌ねじり器生成作業のための多種多様な自動測度を設計・実装する。
関連論文リスト
- Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - TwistList: Resources and Baselines for Tongue Twister Generation [17.317550526263183]
本稿では,音声の重なりを最大化するために音声条件が要求される言語である舌ねじれ音の生成について述べる。
我々は2.1K以上の人為的な例からなる舌ねじれの大規模な注釈付きデータセットである textbfTwistList を提示する。
また,提案課題である舌ねじれ生成のためのベンチマークシステムについても,ドメイン内データのトレーニングを必要とせず,かつ必要としないモデルも提示する。
論文 参考訳(メタデータ) (2023-06-06T07:20:51Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue Twisters
Automatically [20.159562278326764]
PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue Twisters を自動で提案する。
我々は音素表現を利用して、音韻的難易度の概念を捉える。
PANCETTAは, 音声学的に難易度, 流動性, 意味論的に意味のある舌ツイスターを生成する。
論文 参考訳(メタデータ) (2022-09-13T19:46:15Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Deep Sound Change: Deep and Iterative Learning, Convolutional Neural
Networks, and Language Change [0.0]
本稿では,深層学習と反復学習を組み合わせた音響変化をモデル化するための枠組みを提案する。
音響変化のいくつかの性質は、提案されたアーキテクチャから生じると論じている。
論文 参考訳(メタデータ) (2020-11-10T23:49:09Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。