論文の概要: A Human-in-the-Loop Approach to Improving Cross-Text Prosody Transfer
- arxiv url: http://arxiv.org/abs/2406.06601v1
- Date: Thu, 6 Jun 2024 14:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:14:20.606465
- Title: A Human-in-the-Loop Approach to Improving Cross-Text Prosody Transfer
- Title(参考訳): ヒューマン・イン・ザ・ループによるクロステキスト韻律伝達の改善
- Authors: Himanshu Maurya, Atli Sigurgeirsson,
- Abstract要約: Text-To-Speech (TTS) の韻律変換モデルでは、参照発話を条件付けすることで、同じテキストに対して様々な韻律変換を生成することができる。
しかし、テキスト間の韻律伝達のように、参照発話が対象のテキストと異なる場合、これらのモデルは韻律をテキストから切り離すのに苦労し、結果として自然性が低下する。
本稿では,提案するHitL(Human-in-the-Loop)アプローチを提案する。
- 参考スコア(独自算出の注目度): 1.680461336282617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-To-Speech (TTS) prosody transfer models can generate varied prosodic renditions, for the same text, by conditioning on a reference utterance. These models are trained with a reference that is identical to the target utterance. But when the reference utterance differs from the target text, as in cross-text prosody transfer, these models struggle to separate prosody from text, resulting in reduced perceived naturalness. To address this, we propose a Human-in-the-Loop (HitL) approach. HitL users adjust salient correlates of prosody to make the prosody more appropriate for the target text, while maintaining the overall reference prosodic effect. Human adjusted renditions maintain the reference prosody while being rated as more appropriate for the target text $57.8\%$ of the time. Our analysis suggests that limited user effort suffices for these improvements, and that closeness in the latent reference space is not a reliable prosodic similarity metric for the cross-text condition.
- Abstract(参考訳): Text-To-Speech (TTS) の韻律変換モデルでは、参照発話を条件付けすることで、同じテキストに対して様々な韻律変換を生成することができる。
これらのモデルは、ターゲット発話と同一の参照で訓練される。
しかし、テキスト間の韻律伝達のように、参照発話が対象のテキストと異なる場合、これらのモデルは韻律をテキストから切り離すのに苦労し、結果として自然性が低下する。
そこで我々はHitL(Human-in-the-Loop)アプローチを提案する。
HitLユーザは、プロソディの健全な相関を調整し、そのプロソディを対象のテキストに対してより適切なものにするとともに、全体的な参照韻律効果を維持している。
人間の調整された韻律は、基準韻律を維持しつつ、目標テキストの57.8 %$に対してより適当と評価されている。
分析の結果,これらの改善にはユーザ作業の制限が十分であり,参照空間の近接性はテキスト間通信における信頼性の高い韻律的類似度尺度ではないことが示唆された。
関連論文リスト
- Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment
of Coherence in Generated Texts [15.866519123942457]
自動生成テキストの人間知覚コヒーレンスに関する新しいベンチマークである sc CoheSentia を紹介する。
我々のベンチマークには、自動生成および人称注釈付き500の段落が含まれており、それぞれが両方の方法で注釈付けされている。
解析の結果,インクリメンタルモードにおけるアノテータ間の合意は,総合的な代替よりも高いことがわかった。
論文 参考訳(メタデータ) (2023-10-25T03:21:20Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Do Prosody Transfer Models Transfer Prosody? [18.537269415276313]
テキスト音声合成のための最近のモデルでは、参照発話の韻律を生成されたターゲット音声に転送することを目的としている。
我々は、訓練中に異なるが、韻律的にも関係のある発話を使用することも提案する。
これらの条件下で訓練されたモデルは、目標発話を基準として訓練されたモデルよりも大幅に性能が低下することを示す。
論文 参考訳(メタデータ) (2023-03-07T23:35:58Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - So Different Yet So Alike! Constrained Unsupervised Text Style Transfer [54.4773992696361]
本稿では,GAN(Generative Adversarial Network)モデルに2つの相補的損失を導入することによって,制約付き教師なしテキストスタイル転送を実現する手法を提案する。
GANにおける競合的損失とは違って,識別器とジェネレータが協調して同じ損失を減少させる協調的損失を導入する。
自動評価と人的評価の両方法により, 相補的な協調的損失がテキスト品質を向上させることを示す。
論文 参考訳(メタデータ) (2022-05-09T07:46:40Z) - Contextual Text Style Transfer [73.66285813595616]
コンテキストテキストスタイル転送は、文をその周囲のコンテキストを考慮した所望のスタイルに変換することを目的としている。
本稿では,各入力文とその周辺コンテキストに対して2つの異なるエンコーダを使用するコンテキスト認識スタイル転送(CAST)モデルを提案する。
Enron-ContextとReddit-Contextという2つの新しいベンチマークが、フォーマル性と攻撃性スタイルの転送のために導入された。
論文 参考訳(メタデータ) (2020-04-30T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。