論文の概要: Controllable Prosody Generation With Partial Inputs
- arxiv url: http://arxiv.org/abs/2303.09446v2
- Date: Tue, 16 Apr 2024 01:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 02:50:11.975568
- Title: Controllable Prosody Generation With Partial Inputs
- Title(参考訳): 部分入力による可制御性韻律生成
- Authors: Dan Andrei Iliescu, Devang Savita Ram Mohan, Tian Huey Teh, Zack Hodari,
- Abstract要約: 本稿では、ユーザが部分的な入力を提供し、生成モデルが欠落した特徴を生成する新しいフレームワークを提案する。
本モデルでは, 効率性とロバスト性という, ループ内制御機構の2つの重要な特性を示す。
- 参考スコア(独自算出の注目度): 1.8169565243239663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of human-in-the-loop control for generating prosody in the context of text-to-speech synthesis. Controlling prosody is challenging because existing generative models lack an efficient interface through which users can modify the output quickly and precisely. To solve this, we introduce a novel framework whereby the user provides partial inputs and the generative model generates the missing features. We propose a model that is specifically designed to encode partial prosodic features and output complete audio. We show empirically that our model displays two essential qualities of a human-in-the-loop control mechanism: efficiency and robustness. With even a very small number of input values (~4), our model enables users to improve the quality of the output significantly in terms of listener preference (4:1).
- Abstract(参考訳): 本稿では,音声合成の文脈で韻律を生成するためのヒューマン・イン・ザ・ループ制御の問題に対処する。
既存の生成モデルでは、ユーザが素早く正確に出力を変更できる効率的なインターフェースが欠如しているため、韻律の制御は困難である。
これを解決するために,ユーザが部分的な入力を提供し,生成モデルが欠落した特徴を生成する新しいフレームワークを提案する。
本稿では,部分韻律的特徴を符号化し,完全音声を出力するモデルを提案する。
我々は,本モデルがループ制御機構の2つの重要な特性,すなわち効率性と堅牢性を示すことを実証的に示す。
非常に少数の入力値(〜4)であっても、我々のモデルはリスナーの好み(4:1)で出力の品質を大幅に向上させることができる。
関連論文リスト
- Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning [0.0]
そこで本研究では,それを利用した微調整フレームワークを提案する。
PEFT(Efficient Fine-Tuning)技術。
提案する微調整フレームワークは,最大で0.4%のパラメータをチューニングすることで,コードテキスト検索性能を向上させる可能性を実証した。
論文 参考訳(メタデータ) (2024-05-07T08:50:25Z) - Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。
すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。
その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文 参考訳(メタデータ) (2023-11-02T12:01:29Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Double and Single Descent in Causal Inference with an Application to
High-Dimensional Synthetic Control [2.3173485093942943]
機械学習では、非常に多くの自由パラメータがあり、モデルがトレーニングデータに完全に適合する。
多数の制御ユニットを有する高次元合成制御推定器の性能について述べる。
制御ユニットの追加は, 処理前適合が完璧である点を超えても, 計算性能の向上に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-01T07:54:53Z) - Towards Efficient Dialogue Pre-training with Transferable and
Interpretable Latent Structure [77.30953347462452]
本稿では、汎用ドメインから下流タスクへ、軽量で透過的な方法で容易に転送可能な潜在構造を持つ対話生成モデルを提案する。
伝達可能な潜在構造のおかげで,我々のモデルは,自動評価と人的評価の両面において,4つの強いベースラインよりも優れた対話応答が得られる。
論文 参考訳(メタデータ) (2022-10-22T14:46:43Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Controllable Neural Prosody Synthesis [38.437243265743234]
音声合成のためのユーザ制御型コンテキスト認識型ニューラル韻律生成器を開発した。
本モデルでは,ユーザが特定の時間フレームに対する韻律制約を入力し,入力テキストと文脈韻律から残りの時間フレームを生成する。
合成音声の全体的な自然性を犠牲にすることなく,ユーザ制御を韻律生成モデルに組み込むことが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-07T22:11:58Z) - Improving Input-Output Linearizing Controllers for Bipedal Robots via
Reinforcement Learning [85.13138591433635]
入力出力線形化コントローラの主な欠点は、正確な力学モデルが必要であり、入力制約を考慮できないことである。
本稿では,強化学習技術を用いた二足歩行ロボット制御の具体例について,両課題に対処する。
論文 参考訳(メタデータ) (2020-04-15T18:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。