論文の概要: Smooth densities and generative modeling with unsupervised random
forests
- arxiv url: http://arxiv.org/abs/2205.09435v1
- Date: Thu, 19 May 2022 09:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 02:30:46.687979
- Title: Smooth densities and generative modeling with unsupervised random
forests
- Title(参考訳): 無監督無害林によるスムース密度と生成モデル
- Authors: David S. Watson, Kristin Blesch, Jan Kapar, Marvin N. Wright
- Abstract要約: 密度推定器の重要な応用は合成データ生成である。
パラメータ制約を伴わない任意の次元における滑らかな密度を推定するための,教師なしランダム森林に基づく新しい手法を提案する。
提案手法の整合性を証明し,既存の木質密度推定器に対する利点を実証する。
- 参考スコア(独自算出の注目度): 1.433758865948252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Density estimation is a fundamental problem in statistics, and any attempt to
do so in high dimensions typically requires strong assumptions or complex deep
learning architectures. An important application for density estimators is
synthetic data generation, an area currently dominated by neural networks that
often demand enormous training datasets and extensive tuning. We propose a new
method based on unsupervised random forests for estimating smooth densities in
arbitrary dimensions without parametric constraints, as well as generating
realistic synthetic data. We prove the consistency of our approach and
demonstrate its advantages over existing tree-based density estimators, which
generally rely on ill-chosen split criteria and do not scale well with data
dimensionality. Experiments illustrate that our algorithm compares favorably to
state-of-the-art deep learning generative models, achieving superior
performance in a range of benchmark trials while executing about two orders of
magnitude faster on average. Our method is implemented in easy-to-use
$\texttt{R}$ and Python packages.
- Abstract(参考訳): 密度推定は統計学の基本的な問題であり、高次元でそれを試みるには、強い仮定や複雑なディープラーニングアーキテクチャが必要となる。
密度推定器の重要な応用は合成データ生成である。この領域は現在、膨大なトレーニングデータセットと広範囲なチューニングを必要とするニューラルネットワークに支配されている。
パラメトリック制約を伴わずに任意の次元の滑らかな密度を推定し,現実的な合成データを生成するための教師なしランダムフォレストに基づく新しい手法を提案する。
我々はこのアプローチの一貫性を証明し、既存の木に基づく密度推定器よりもその利点を実証する。
実験により,我々のアルゴリズムは最先端のディープラーニング生成モデルと良好に比較でき,ベンチマーク試験の範囲で性能が向上し,平均で約2桁高速化された。
我々のメソッドは簡単に使える$\texttt{R}$とPythonパッケージで実装されます。
関連論文リスト
- Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - RGM: A Robust Generalist Matching Model [53.223624323416914]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - DeepBayes -- an estimator for parameter estimation in stochastic
nonlinear dynamical models [11.917949887615567]
本研究では,DeepBayes推定器を提案する。
ディープリカレントニューラルネットワークアーキテクチャはオフラインでトレーニングでき、推論中にかなりの時間を節約できる。
提案手法の異なる実例モデルへの適用性を実証し, 最先端手法との詳細な比較を行う。
論文 参考訳(メタデータ) (2022-05-04T18:12:17Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Marginalizable Density Models [14.50261153230204]
本稿では,変数の任意の部分集合の確率,限界,条件に対するクローズドフォーム表現を提供する,新しいディープネットワークアーキテクチャを提案する。
このモデルはまた、変数数に時間複雑性の対数依存しか依存しない並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2021-06-08T23:54:48Z) - Neural Approximate Sufficient Statistics for Implicit Models [34.44047460667847]
我々は、深層ニューラルネットワークの助けを借りて、データの表現を最大化する相互情報の学習として、十分な統計情報を構築するタスクの枠組みを定めている。
従来のベイズ近似計算と最近のニューラル・サイエンス法の両方にアプローチを適用し,様々なタスクにおける性能を向上する。
論文 参考訳(メタデータ) (2020-10-20T07:11:40Z) - Variable Skipping for Autoregressive Range Density Estimation [84.60428050170687]
深部自己回帰モデルを用いた距離密度推定を高速化する手法である可変スキップについて述べる。
可変スキップは、10-100$timesの効率向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-10T19:01:40Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。