論文の概要: Controlling High-Dimensional Data With Sparse Input
- arxiv url: http://arxiv.org/abs/2303.09446v1
- Date: Tue, 14 Mar 2023 09:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:46:26.634983
- Title: Controlling High-Dimensional Data With Sparse Input
- Title(参考訳): スパース入力による高次元データ制御
- Authors: Dan Andrei Iliescu, Devang Savita Ram Mohan, Tian Huey Teh, Zack
Hodari
- Abstract要約: 生成モデルの潜在空間に、疎い人間の解釈可能な制御空間をマッピングする新しい枠組みを導入する。
実験により,MICVAEはスパース・イン・ザ・ループ制御機構の望ましい特性を示す。
- 参考スコア(独自算出の注目度): 2.971749725643218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of human-in-the-loop control for generating
highly-structured data. This task is challenging because existing generative
models lack an efficient interface through which users can modify the output.
Users have the option to either manually explore a non-interpretable latent
space, or to laboriously annotate the data with conditioning labels. To solve
this, we introduce a novel framework whereby an encoder maps a sparse, human
interpretable control space onto the latent space of a generative model. We
apply this framework to the task of controlling prosody in text-to-speech
synthesis. We propose a model, called Multiple-Instance CVAE (MICVAE), that is
specifically designed to encode sparse prosodic features and output complete
waveforms. We show empirically that MICVAE displays desirable qualities of a
sparse human-in-the-loop control mechanism: efficiency, robustness, and
faithfulness. With even a very small number of input values (~4), MICVAE
enables users to improve the quality of the output significantly, in terms of
listener preference (4:1).
- Abstract(参考訳): 我々は,高度に構造化されたデータを生成するためのループ制御の問題に対処する。
既存の生成モデルにはユーザが出力を変更できる効率的なインターフェースが欠けているため、このタスクは難しい。
ユーザは、解釈不能な潜伏空間を手動で探索するか、あるいは条件付きラベルでデータを注記するオプションがある。
この問題を解決するために,エンコーダが可読な人間の解釈可能な制御空間を生成モデルの潜在空間にマッピングする,新しい枠組みを提案する。
この枠組みを音声合成における韻律制御の課題に適用する。
本稿では,スパースな韻律特徴を符号化し,完全な波形を出力するMultiple-Instance CVAE (MICVAE) モデルを提案する。
実験の結果,micvaeは,効率性,堅牢性,忠実性など,ループ内における少ない制御機構の望ましい性質を示すことがわかった。
非常に少数の入力値 (~4) であっても、MICVAE はリスナーの好み (4:1) で出力の品質を大幅に改善することができる。
関連論文リスト
- PCAE: A Framework of Plug-in Conditional Auto-Encoder for Controllable
Text Generation [33.18577107062907]
制御可能なテキスト生成のためのモデル非依存フレームワークPlug-in条件自動エンコーダ(PCAE)を提案する。
我々のフレームワークは"plug-and-play"であり、部分パラメータは事前訓練されたモデル(半分未満)で微調整される。
実験では、高度に操作可能で、構文的に多様性があり、省時間な生成を可能にするPCAEの高機能を明らかにしている。
論文 参考訳(メタデータ) (2022-10-07T12:31:47Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Hyperdecoders: Instance-specific decoders for multi-task NLP [9.244884318445413]
NLPにおけるマルチタスクのための入力条件付きハイパーネットワークについて検討する。
我々は,エンコーダの出力に条件付きハイパーネットワークを用いて,デコーダのパラメータ効率適応を生成する。
論文 参考訳(メタデータ) (2022-03-15T22:39:53Z) - ColBERTv2: Effective and Efficient Retrieval via Lightweight Late
Interaction [15.336103841957328]
ColBERTv2は、攻撃的な残留圧縮機構と識別された監視戦略を結合するレトリバーである。
ColBERTv2をさまざまなベンチマークで評価し,トレーニング領域内外における最先端の品質を確立した。
論文 参考訳(メタデータ) (2021-12-02T18:38:50Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。