Fugu-MT 論文翻訳(概要): Controllable Prosody Generation With Partial Inputs

論文の概要: Controllable Prosody Generation With Partial Inputs

arxiv url: http://arxiv.org/abs/2303.09446v2
Date: Tue, 16 Apr 2024 01:33:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 02:50:11.975568
Title: Controllable Prosody Generation With Partial Inputs
Title（参考訳）: 部分入力による可制御性韻律生成
Authors: Dan Andrei Iliescu, Devang Savita Ram Mohan, Tian Huey Teh, Zack Hodari,
Abstract要約: 本稿では、ユーザが部分的な入力を提供し、生成モデルが欠落した特徴を生成する新しいフレームワークを提案する。本モデルでは, 効率性とロバスト性という, ループ内制御機構の2つの重要な特性を示す。
参考スコア（独自算出の注目度）: 1.8169565243239663
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the problem of human-in-the-loop control for generating prosody in the context of text-to-speech synthesis. Controlling prosody is challenging because existing generative models lack an efficient interface through which users can modify the output quickly and precisely. To solve this, we introduce a novel framework whereby the user provides partial inputs and the generative model generates the missing features. We propose a model that is specifically designed to encode partial prosodic features and output complete audio. We show empirically that our model displays two essential qualities of a human-in-the-loop control mechanism: efficiency and robustness. With even a very small number of input values (~4), our model enables users to improve the quality of the output significantly in terms of listener preference (4:1).
Abstract（参考訳）: 本稿では,音声合成の文脈で韻律を生成するためのヒューマン・イン・ザ・ループ制御の問題に対処する。既存の生成モデルでは、ユーザが素早く正確に出力を変更できる効率的なインターフェースが欠如しているため、韻律の制御は困難である。これを解決するために,ユーザが部分的な入力を提供し,生成モデルが欠落した特徴を生成する新しいフレームワークを提案する。本稿では,部分韻律的特徴を符号化し,完全音声を出力するモデルを提案する。我々は,本モデルがループ制御機構の2つの重要な特性,すなわち効率性と堅牢性を示すことを実証的に示す。非常に少数の入力値(〜4)であっても、我々のモデルはリスナーの好み(4:1)で出力の品質を大幅に向上させることができる。

関連論文リスト

Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models [54.29243291958429]
本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
論文参考訳（メタデータ） (2025-11-13T03:08:51Z)
RepeaTTS: Towards Feature Discovery through Repeated Fine-Tuning [11.547937373256921]
PromptベースのText-To-Speechモデルでは、自然言語による発話率や知覚性などの音声のさまざまな側面を制御できる。制御は訓練中にモデルに露出する音響的特徴に限られており、他方では柔軟すぎる:同じ入力はコーパス統計に反映される制御不能な変動をもたらす。制御不能なモデルの分散を利用して,これらの問題に同時に対処する新しい微調整方式について検討する。
論文参考訳（メタデータ） (2025-07-05T10:59:00Z)
Interactive Reasoning: Visualizing and Controlling Chain-of-Thought Reasoning in Large Language Models [54.85405423240165]
トピックの階層構造としてチェーンオブ思考出力を可視化するインタラクション設計であるInteractive Reasoningを導入する。私たちは、不確実なトレードオフに直面したAIによる意思決定のプロトタイプであるHippoで、インタラクティブな推論を実装しています。
論文参考訳（メタデータ） (2025-06-30T10:00:43Z)
SAEs Are Good for Steering -- If You Select the Right Features [45.47261543304217]
現在の方法では、それらを活性化する入力トークンを分析して、SAEの機能をステアに識別する。本研究では,主にモデル入力のパターンをキャプチャする入力特徴と,モデル出力に対する人間の理解可能な影響を持つ出力特徴の2つの特徴を区別する。
論文参考訳（メタデータ） (2025-05-26T14:47:59Z)
ShuffleGate: An Efficient and Self-Polarizing Feature Selection Method for Large-Scale Deep Models in Industry [12.690406065558394]
ShuffleGateはインスタンス間ですべての機能を同時にシャッフルする。モデルを再トレーニングすることなく、適切に分離された重要なスコアを生成し、パフォーマンスを見積もることができます。様々なシナリオで、Bilibiliの検索モデルの日々のイテレーションにうまく統合されています。
論文参考訳（メタデータ） (2025-03-12T12:05:03Z)
OminiControl2: Efficient Conditioning for Diffusion Transformers [68.3243031301164]
我々は,効率的な画像条件生成を実現する効率的なフレームワークであるOminiControl2を提案する。 OminiControl2は、(1)生成時に最も意味のあるトークンだけを保存することによって条件入力を合理化する動的圧縮戦略、(2)条件トークンの特徴を1回だけ計算し、段階的に再利用する条件的特徴再利用機構である。
論文参考訳（メタデータ） (2025-03-11T10:50:14Z)
Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning [0.0]
そこで本研究では,それを利用した微調整フレームワークを提案する。 PEFT(Efficient Fine-Tuning)技術。提案する微調整フレームワークは,最大で0.4%のパラメータをチューニングすることで,コードテキスト検索性能を向上させる可能性を実証した。
論文参考訳（メタデータ） (2024-05-07T08:50:25Z)
Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文参考訳（メタデータ） (2024-05-02T15:03:41Z)
PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文参考訳（メタデータ） (2024-02-25T05:04:51Z)
Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文参考訳（メタデータ） (2023-11-02T12:01:29Z)
Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。 SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文参考訳（メタデータ） (2023-06-01T19:04:17Z)
Double and Single Descent in Causal Inference with an Application to High-Dimensional Synthetic Control [2.3173485093942943]
機械学習では、非常に多くの自由パラメータがあり、モデルがトレーニングデータに完全に適合する。多数の制御ユニットを有する高次元合成制御推定器の性能について述べる。制御ユニットの追加は, 処理前適合が完璧である点を超えても, 計算性能の向上に有効であることがわかった。
論文参考訳（メタデータ） (2023-05-01T07:54:53Z)
Towards Efficient Dialogue Pre-training with Transferable and Interpretable Latent Structure [77.30953347462452]
本稿では、汎用ドメインから下流タスクへ、軽量で透過的な方法で容易に転送可能な潜在構造を持つ対話生成モデルを提案する。伝達可能な潜在構造のおかげで,我々のモデルは,自動評価と人的評価の両面において,4つの強いベースラインよりも優れた対話応答が得られる。
論文参考訳（メタデータ） (2022-10-22T14:46:43Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Controllable Neural Prosody Synthesis [38.437243265743234]
音声合成のためのユーザ制御型コンテキスト認識型ニューラル韻律生成器を開発した。本モデルでは,ユーザが特定の時間フレームに対する韻律制約を入力し,入力テキストと文脈韻律から残りの時間フレームを生成する。合成音声の全体的な自然性を犠牲にすることなく,ユーザ制御を韻律生成モデルに組み込むことが可能であることを示す。
論文参考訳（メタデータ） (2020-08-07T22:11:58Z)
Improving Input-Output Linearizing Controllers for Bipedal Robots via Reinforcement Learning [85.13138591433635]
入力出力線形化コントローラの主な欠点は、正確な力学モデルが必要であり、入力制約を考慮できないことである。本稿では,強化学習技術を用いた二足歩行ロボット制御の具体例について,両課題に対処する。
論文参考訳（メタデータ） (2020-04-15T18:15:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。