論文の概要: Smooth densities and generative modeling with unsupervised random
forests
- arxiv url: http://arxiv.org/abs/2205.09435v1
- Date: Thu, 19 May 2022 09:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 02:30:46.687979
- Title: Smooth densities and generative modeling with unsupervised random
forests
- Title(参考訳): 無監督無害林によるスムース密度と生成モデル
- Authors: David S. Watson, Kristin Blesch, Jan Kapar, Marvin N. Wright
- Abstract要約: 密度推定器の重要な応用は合成データ生成である。
パラメータ制約を伴わない任意の次元における滑らかな密度を推定するための,教師なしランダム森林に基づく新しい手法を提案する。
提案手法の整合性を証明し,既存の木質密度推定器に対する利点を実証する。
- 参考スコア(独自算出の注目度): 1.433758865948252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Density estimation is a fundamental problem in statistics, and any attempt to
do so in high dimensions typically requires strong assumptions or complex deep
learning architectures. An important application for density estimators is
synthetic data generation, an area currently dominated by neural networks that
often demand enormous training datasets and extensive tuning. We propose a new
method based on unsupervised random forests for estimating smooth densities in
arbitrary dimensions without parametric constraints, as well as generating
realistic synthetic data. We prove the consistency of our approach and
demonstrate its advantages over existing tree-based density estimators, which
generally rely on ill-chosen split criteria and do not scale well with data
dimensionality. Experiments illustrate that our algorithm compares favorably to
state-of-the-art deep learning generative models, achieving superior
performance in a range of benchmark trials while executing about two orders of
magnitude faster on average. Our method is implemented in easy-to-use
$\texttt{R}$ and Python packages.
- Abstract(参考訳): 密度推定は統計学の基本的な問題であり、高次元でそれを試みるには、強い仮定や複雑なディープラーニングアーキテクチャが必要となる。
密度推定器の重要な応用は合成データ生成である。この領域は現在、膨大なトレーニングデータセットと広範囲なチューニングを必要とするニューラルネットワークに支配されている。
パラメトリック制約を伴わずに任意の次元の滑らかな密度を推定し,現実的な合成データを生成するための教師なしランダムフォレストに基づく新しい手法を提案する。
我々はこのアプローチの一貫性を証明し、既存の木に基づく密度推定器よりもその利点を実証する。
実験により,我々のアルゴリズムは最先端のディープラーニング生成モデルと良好に比較でき,ベンチマーク試験の範囲で性能が向上し,平均で約2桁高速化された。
我々のメソッドは簡単に使える$\texttt{R}$とPythonパッケージで実装されます。
関連論文リスト
- A Geometric View of Data Complexity: Efficient Local Intrinsic Dimension Estimation with Diffusion Models [12.636148533844882]
低次元部分多様体の局所次元内在(LID)を推定することは長年の問題である。
本研究では,拡散モデルに付随するFokker-Planck方程式がLID推定器となることを示す。
FLIPDを合成LID推定ベンチマークに適用すると、完全に接続されたネットワークとして実装されたDMは、非常に効果的なLID推定器であることが分かる。
論文 参考訳(メタデータ) (2024-06-05T18:00:02Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Modular Learning of Deep Causal Generative Models for High-dimensional Causal Inference [5.522612010562183]
Modular-DCMは、因果構造を考えると、敵のトレーニングを用いてネットワーク重みを学習する最初のアルゴリズムである。
本稿では,CelebA-HQ における因果不変予測問題を用いて,このアルゴリズムの COVIDx データセットとそのユーティリティへの収束性を示す。
論文 参考訳(メタデータ) (2024-01-02T20:31:15Z) - Generative Forests [23.554594285885273]
私たちは、表データという最も一般的な形式のデータのうちの1つを表わすデータのための生成AIに焦点を合わせています。
本稿では,このような課題に適合する森林モデルの新しい強力なクラスと,強力な収束保証を備えた簡単なトレーニングアルゴリズムを提案する。
これらのタスクに関する追加実験により、我々のモデルは、多種多様な技術手法に対する優れた競争相手になり得ることが判明した。
論文 参考訳(メタデータ) (2023-08-07T14:58:53Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - DeepBayes -- an estimator for parameter estimation in stochastic
nonlinear dynamical models [11.917949887615567]
本研究では,DeepBayes推定器を提案する。
ディープリカレントニューラルネットワークアーキテクチャはオフラインでトレーニングでき、推論中にかなりの時間を節約できる。
提案手法の異なる実例モデルへの適用性を実証し, 最先端手法との詳細な比較を行う。
論文 参考訳(メタデータ) (2022-05-04T18:12:17Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Neural Approximate Sufficient Statistics for Implicit Models [34.44047460667847]
我々は、深層ニューラルネットワークの助けを借りて、データの表現を最大化する相互情報の学習として、十分な統計情報を構築するタスクの枠組みを定めている。
従来のベイズ近似計算と最近のニューラル・サイエンス法の両方にアプローチを適用し,様々なタスクにおける性能を向上する。
論文 参考訳(メタデータ) (2020-10-20T07:11:40Z) - Variable Skipping for Autoregressive Range Density Estimation [84.60428050170687]
深部自己回帰モデルを用いた距離密度推定を高速化する手法である可変スキップについて述べる。
可変スキップは、10-100$timesの効率向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-10T19:01:40Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。