論文の概要: Generative modeling of density regression through tree flows
- arxiv url: http://arxiv.org/abs/2406.05260v2
- Date: Wed, 02 Oct 2024 04:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:16.493910
- Title: Generative modeling of density regression through tree flows
- Title(参考訳): 木流中における密度回帰の生成モデル
- Authors: Zhuoqun Wang, Naoki Awaya, Li Ma,
- Abstract要約: 本稿では,表データの密度回帰タスクに適したフローベース生成モデルを提案する。
本稿では,木質変換を分割・対数戦略を用いて適合させる学習アルゴリズムを提案する。
本手法は, トレーニングおよびサンプリング予算のごく一部において, 同等あるいは優れた性能を継続的に達成する。
- 参考スコア(独自算出の注目度): 3.0262553206264893
- License:
- Abstract: A common objective in the analysis of tabular data is estimating the conditional distribution (in contrast to only producing predictions) of a set of "outcome" variables given a set of "covariates", which is sometimes referred to as the "density regression" problem. Beyond estimation on the conditional distribution, the generative ability of drawing synthetic samples from the learned conditional distribution is also desired as it further widens the range of applications. We propose a flow-based generative model tailored for the density regression task on tabular data. Our flow applies a sequence of tree-based piecewise-linear transforms on initial uniform noise to eventually generate samples from complex conditional densities of (univariate or multivariate) outcomes given the covariates and allows efficient analytical evaluation of the fitted conditional density on any point in the sample space. We introduce a training algorithm for fitting the tree-based transforms using a divide-and-conquer strategy that transforms maximum likelihood training of the tree-flow into training a collection of binary classifiers--one at each tree split--under cross-entropy loss. We assess the performance of our method under out-of-sample likelihood evaluation and compare it with a variety of state-of-the-art conditional density learners on a range of simulated and real benchmark tabular datasets. Our method consistently achieves comparable or superior performance at a fraction of the training and sampling budget. Finally, we demonstrate the utility of our method's generative ability through an application to generating synthetic longitudinal microbiome compositional data based on training our flow on a publicly available microbiome study.
- Abstract(参考訳): 表型データの解析における一般的な目的は、一組の「共変量」が与えられた一連の「アウトカム」変数の条件分布を推定することであり、これはしばしば「密度回帰」問題と呼ばれる。
条件分布の推定以外にも、学習条件分布から合成サンプルを抽出する生成能力も望まれており、適用範囲をさらに広げている。
本稿では,表データの密度回帰タスクに適したフローベース生成モデルを提案する。
我々の流れは、初期一様雑音に木をベースとした一様線形変換を適用し、最終的に共変量(単変量または多変量)の結果の複素条件密度からサンプルを生成し、サンプル空間の任意の点における適合条件密度の効率的な解析的評価を可能にする。
そこで本研究では,木分割・クロスエントロピー損失における木分割・クロスエントロピー損失の1つとして,木フローの最大極大トレーニングを2値分類器の集合に変換する分別・対数戦略を用いて木ベース変換を適合させる訓練アルゴリズムを提案する。
我々は,本手法の性能をサンプル外確率評価で評価し,シミュレーションおよび実ベンチマーク表を用いた各種条件密度学習者と比較した。
本手法は, トレーニングおよびサンプリング予算のごく一部において, 同等あるいは優れた性能を継続的に達成する。
最後に,我々のフローのトレーニングに基づく合成長手マイクロバイオーム合成データ作成への応用を通じて,本手法の生成能力を実証する。
関連論文リスト
- Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Nonparametric Probabilistic Regression with Coarse Learners [1.8275108630751844]
我々は, 密度の形状や形状について最小限の仮定で, 正確な条件密度を計算することができることを示す。
このアプローチをさまざまなデータセットで実証し、特に大きなデータセットで競合性能を示す。
論文 参考訳(メタデータ) (2022-10-28T16:25:26Z) - Convergence for score-based generative modeling with polynomial
complexity [9.953088581242845]
我々は、Scoreベースの生成モデルの背後にあるコアメカニックに対する最初の収束保証を証明した。
以前の作品と比較すると、時間的に指数関数的に増加するエラーや、次元の呪いに苦しむエラーは発生しない。
予測器・相関器はどちらの部分のみを使用するよりも収束性が高いことを示す。
論文 参考訳(メタデータ) (2022-06-13T14:57:35Z) - TreeFlow: Going beyond Tree-based Gaussian Probabilistic Regression [0.0]
ツリーアンサンブルを使うことの利点と柔軟な確率分布をモデル化する能力を組み合わせたツリーベースアプローチであるTreeFlowを紹介した。
提案手法は, 諸量, 特徴量, 目標寸法の異なる回帰ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2022-06-08T20:06:23Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。