論文の概要: Learning the joint distribution of two sequences using little or no
paired data
- arxiv url: http://arxiv.org/abs/2212.03232v1
- Date: Tue, 6 Dec 2022 18:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 15:29:55.585896
- Title: Learning the joint distribution of two sequences using little or no
paired data
- Title(参考訳): ペアデータによる2つの系列の結合分布の学習
- Authors: Soroosh Mariooryad, Matt Shannon, Siyuan Ma, Tom Bagby, David Kao,
Daisy Stanton, Eric Battenberg, RJ Skerry-Ryan
- Abstract要約: 本稿では,2つのシーケンス,例えばテキストと音声のノイズチャネル生成モデルを提案する。
ペア化されたデータの少ないデータでも、大量の未ペアデータが存在する場合の2つのモダリティを関連付けるのに十分であることを示す。
- 参考スコア(独自算出の注目度): 16.189575655434844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a noisy channel generative model of two sequences, for example
text and speech, which enables uncovering the association between the two
modalities when limited paired data is available. To address the intractability
of the exact model under a realistic data setup, we propose a variational
inference approximation. To train this variational model with categorical data,
we propose a KL encoder loss approach which has connections to the wake-sleep
algorithm. Identifying the joint or conditional distributions by only observing
unpaired samples from the marginals is only possible under certain conditions
in the data distribution and we discuss under what type of conditional
independence assumptions that might be achieved, which guides the architecture
designs. Experimental results show that even tiny amount of paired data (5
minutes) is sufficient to learn to relate the two modalities (graphemes and
phonemes here) when a massive amount of unpaired data is available, paving the
path to adopting this principled approach for all seq2seq models in low data
resource regimes.
- Abstract(参考訳): 本稿では,テキストと音声の2つのシーケンスのノイズチャネル生成モデルを提案する。
実データ設定下での厳密なモデルの難解性に対処するために,変分推論近似を提案する。
この変分モデルをカテゴリデータで学習するために,wake-sleepアルゴリズムと接続したklエンコーダ損失法を提案する。
データ分布の特定の条件下では, 余剰サンプルのみを観測することで, 連関分布や条件分布の同定が可能であり, アーキテクチャ設計の指針となる, どのような条件独立仮定が達成されるのかを議論する。
実験の結果、ペアデータ(5分)が少量であっても、大量の非ペアデータがある場合、2つのモダリティ(グラフと音素)を関連付けるには十分であることが示され、低データリソース環境におけるseq2seqモデルにこの原則に基づくアプローチを採用する道筋が開かれた。
関連論文リスト
- Dataset Condensation with Latent Quantile Matching [5.466962214217334]
電流分布マッチング (DM) に基づく直流法は, 合成外乱と実外乱の遅延埋め込みの平均をマッチングすることにより, 合成データセットを学習する。
本稿では,2つの分布間の適合試験統計量の良さを最小化するために,遅延埋め込みの量子化と一致する潜在量子マッチング(LQM)を提案する。
論文 参考訳(メタデータ) (2024-06-14T09:20:44Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Sufficient Identification Conditions and Semiparametric Estimation under
Missing Not at Random Mechanisms [4.211128681972148]
統計的に有効な分析を行うことは、MNARデータの存在において困難である。
従来のMNARモデルを2つの方法で一般化したMNARモデルを考える。
そこで本稿では,確率比をパラメータとして,そのようなモデルで符号化された独立性制約をテストする手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T13:46:16Z) - VertiBayes: Learning Bayesian network parameters from vertically partitioned data with missing values [2.9707233220536313]
フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。
本稿では,垂直分割データ上でベイズネットワークを学習するためのVertiBayesという新しい手法を提案する。
提案手法は,従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:13:35Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - One-Way Matching of Datasets with Low Rank Signals [4.582330307986793]
投影されたデータに対する線形代入は収束の速さを達成し、時にはこのタスクに対する最小値の最適性さえも達成できることを示す。
本稿では,2つの単一セルデータ例に対して,マッチング手法の実用化について述べる。
論文 参考訳(メタデータ) (2022-04-29T03:12:23Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。