論文の概要: PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue Twisters
Automatically
- arxiv url: http://arxiv.org/abs/2209.06275v1
- Date: Tue, 13 Sep 2022 19:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:45:24.776290
- Title: PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue Twisters
Automatically
- Title(参考訳): PANCETTA: トイスターを自動で除去する音素認識型ニューラルコンプリート
- Authors: Sedrick Scott Keh, Steven Y. Feng, Varun Gangal, Malihe Alikhani,
Eduard Hovy
- Abstract要約: PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue Twisters を自動で提案する。
我々は音素表現を利用して、音韻的難易度の概念を捉える。
PANCETTAは, 音声学的に難易度, 流動性, 意味論的に意味のある舌ツイスターを生成する。
- 参考スコア(独自算出の注目度): 20.159562278326764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tongue twisters are meaningful sentences that are difficult to pronounce. The
process of automatically generating tongue twisters is challenging since the
generated utterance must satisfy two conditions at once: phonetic difficulty
and semantic meaning. Furthermore, phonetic difficulty is itself hard to
characterize and is expressed in natural tongue twisters through a
heterogeneous mix of phenomena such as alliteration and homophony. In this
paper, we propose PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue
Twisters Automatically. We leverage phoneme representations to capture the
notion of phonetic difficulty, and we train language models to generate
original tongue twisters on two proposed task settings. To do this, we curate a
dataset called PANCETTA, consisting of existing English tongue twisters.
Through automatic and human evaluation, as well as qualitative analysis, we
show that PANCETTA generates novel, phonetically difficult, fluent, and
semantically meaningful tongue twisters.
- Abstract(参考訳): 舌ひねりは発音が難しい意味のある文である。
音声の難易度と意味的意味の2つの条件を同時に満たさなければならないため,舌ツイスターの自動生成は困難である。
さらに、音韻難易度自体が特徴付けが困難であり、音韻やホモフォニーといった異種混合現象を通じて自然舌ツイスターで表現される。
本稿では, PANCETTA: Phoneme Aware Neural Completion to Elicit Tongue Twisters Automaticlyを提案する。
我々は,音素表現を用いて音韻難易度の概念を捉え,言語モデルを訓練し,提案する2つのタスク設定で元の舌ひねりを生成する。
これを実現するために、既存の英語の舌ねじれ器からなるPANCETTAと呼ばれるデータセットをキュレートする。
PANCETTAは自動的・人為的評価と質的分析により,音声学的に難易度,難易度,意味論的に意味のある舌ツイスターを生成する。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Train & Constrain: Phonologically Informed Tongue-Twister Generation from Topics and Paraphrases [24.954896926774627]
大言語モデル(LLM)から音韻的に情報を得た舌ねじれ音を生成するパイプラインを提案する。
生成されたデータセットに基づいてトレーニングした小型モデルの自動評価と人的評価の結果を示す。
本稿では,自動回帰言語モデルに統合可能な,音素認識型制約付き復号モジュール(PACD)を提案する。
論文 参考訳(メタデータ) (2024-03-20T18:13:17Z) - Thread of Thought Unraveling Chaotic Contexts [133.24935874034782]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。
実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文 参考訳(メタデータ) (2023-11-15T06:54:44Z) - The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。
任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:09:07Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - TwistList: Resources and Baselines for Tongue Twister Generation [17.317550526263183]
本稿では,音声の重なりを最大化するために音声条件が要求される言語である舌ねじれ音の生成について述べる。
我々は2.1K以上の人為的な例からなる舌ねじれの大規模な注釈付きデータセットである textbfTwistList を提示する。
また,提案課題である舌ねじれ生成のためのベンチマークシステムについても,ドメイン内データのトレーニングを必要とせず,かつ必要としないモデルも提示する。
論文 参考訳(メタデータ) (2023-06-06T07:20:51Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - English-to-Chinese Transliteration with Phonetic Back-transliteration [0.9281671380673306]
音素の類似性に基づいて、名前付きエンティティを言語から別の言語に翻訳するタスクである。
本研究では,2つの方法で音声情報をニューラルネットワークに組み込む。
私たちの実験には3つの言語対と6つの方向、すなわち英語から中国語、ヘブライ語、タイ語までが含まれる。
論文 参考訳(メタデータ) (2021-12-20T03:29:28Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。