論文の概要: Controlling High-Dimensional Data With Sparse Input
- arxiv url: http://arxiv.org/abs/2303.09446v1
- Date: Tue, 14 Mar 2023 09:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:46:26.634983
- Title: Controlling High-Dimensional Data With Sparse Input
- Title(参考訳): スパース入力による高次元データ制御
- Authors: Dan Andrei Iliescu, Devang Savita Ram Mohan, Tian Huey Teh, Zack
Hodari
- Abstract要約: 生成モデルの潜在空間に、疎い人間の解釈可能な制御空間をマッピングする新しい枠組みを導入する。
実験により,MICVAEはスパース・イン・ザ・ループ制御機構の望ましい特性を示す。
- 参考スコア(独自算出の注目度): 2.971749725643218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of human-in-the-loop control for generating
highly-structured data. This task is challenging because existing generative
models lack an efficient interface through which users can modify the output.
Users have the option to either manually explore a non-interpretable latent
space, or to laboriously annotate the data with conditioning labels. To solve
this, we introduce a novel framework whereby an encoder maps a sparse, human
interpretable control space onto the latent space of a generative model. We
apply this framework to the task of controlling prosody in text-to-speech
synthesis. We propose a model, called Multiple-Instance CVAE (MICVAE), that is
specifically designed to encode sparse prosodic features and output complete
waveforms. We show empirically that MICVAE displays desirable qualities of a
sparse human-in-the-loop control mechanism: efficiency, robustness, and
faithfulness. With even a very small number of input values (~4), MICVAE
enables users to improve the quality of the output significantly, in terms of
listener preference (4:1).
- Abstract(参考訳): 我々は,高度に構造化されたデータを生成するためのループ制御の問題に対処する。
既存の生成モデルにはユーザが出力を変更できる効率的なインターフェースが欠けているため、このタスクは難しい。
ユーザは、解釈不能な潜伏空間を手動で探索するか、あるいは条件付きラベルでデータを注記するオプションがある。
この問題を解決するために,エンコーダが可読な人間の解釈可能な制御空間を生成モデルの潜在空間にマッピングする,新しい枠組みを提案する。
この枠組みを音声合成における韻律制御の課題に適用する。
本稿では,スパースな韻律特徴を符号化し,完全な波形を出力するMultiple-Instance CVAE (MICVAE) モデルを提案する。
実験の結果,micvaeは,効率性,堅牢性,忠実性など,ループ内における少ない制御機構の望ましい性質を示すことがわかった。
非常に少数の入力値 (~4) であっても、MICVAE はリスナーの好み (4:1) で出力の品質を大幅に改善することができる。
関連論文リスト
- Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning [0.0]
そこで本研究では,それを利用した微調整フレームワークを提案する。
PEFT(Efficient Fine-Tuning)技術。
提案する微調整フレームワークは,最大で0.4%のパラメータをチューニングすることで,コードテキスト検索性能を向上させる可能性を実証した。
論文 参考訳(メタデータ) (2024-05-07T08:50:25Z) - Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。
すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。
その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文 参考訳(メタデータ) (2023-11-02T12:01:29Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Double and Single Descent in Causal Inference with an Application to
High-Dimensional Synthetic Control [2.3173485093942943]
機械学習では、非常に多くの自由パラメータがあり、モデルがトレーニングデータに完全に適合する。
多数の制御ユニットを有する高次元合成制御推定器の性能について述べる。
制御ユニットの追加は, 処理前適合が完璧である点を超えても, 計算性能の向上に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-01T07:54:53Z) - Towards Efficient Dialogue Pre-training with Transferable and
Interpretable Latent Structure [77.30953347462452]
本稿では、汎用ドメインから下流タスクへ、軽量で透過的な方法で容易に転送可能な潜在構造を持つ対話生成モデルを提案する。
伝達可能な潜在構造のおかげで,我々のモデルは,自動評価と人的評価の両面において,4つの強いベースラインよりも優れた対話応答が得られる。
論文 参考訳(メタデータ) (2022-10-22T14:46:43Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Controllable Neural Prosody Synthesis [38.437243265743234]
音声合成のためのユーザ制御型コンテキスト認識型ニューラル韻律生成器を開発した。
本モデルでは,ユーザが特定の時間フレームに対する韻律制約を入力し,入力テキストと文脈韻律から残りの時間フレームを生成する。
合成音声の全体的な自然性を犠牲にすることなく,ユーザ制御を韻律生成モデルに組み込むことが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-07T22:11:58Z) - Improving Input-Output Linearizing Controllers for Bipedal Robots via
Reinforcement Learning [85.13138591433635]
入力出力線形化コントローラの主な欠点は、正確な力学モデルが必要であり、入力制約を考慮できないことである。
本稿では,強化学習技術を用いた二足歩行ロボット制御の具体例について,両課題に対処する。
論文 参考訳(メタデータ) (2020-04-15T18:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。