論文の概要: Conditional Density Estimation with Histogram Trees
- arxiv url: http://arxiv.org/abs/2410.11449v1
- Date: Tue, 15 Oct 2024 09:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:33.763873
- Title: Conditional Density Estimation with Histogram Trees
- Title(参考訳): ヒストグラム木を用いた条件密度推定
- Authors: Lincen Yang, Matthijs van Leeuwen,
- Abstract要約: 条件密度推定(CDE)は、完全な条件分布をモデル化することによって回帰を超える。
現在の手法ではカーネルに基づくアプローチが一般的であり、カーネル密度推定や線形モデルの基底関数としてカーネル関数を直接使用する。
本研究では,各葉がヒストグラムモデルによって形成される決定木からなる完全非パラメータモデルである条件密度木(CDTree)を提案する。
- 参考スコア(独自算出の注目度): 3.5297361401370044
- License:
- Abstract: Conditional density estimation (CDE) goes beyond regression by modeling the full conditional distribution, providing a richer understanding of the data than just the conditional mean in regression. This makes CDE particularly useful in critical application domains. However, interpretable CDE methods are understudied. Current methods typically employ kernel-based approaches, using kernel functions directly for kernel density estimation or as basis functions in linear models. In contrast, despite their conceptual simplicity and visualization suitability, tree-based methods -- which are arguably more comprehensible -- have been largely overlooked for CDE tasks. Thus, we propose the Conditional Density Tree (CDTree), a fully non-parametric model consisting of a decision tree in which each leaf is formed by a histogram model. Specifically, we formalize the problem of learning a CDTree using the minimum description length (MDL) principle, which eliminates the need for tuning the hyperparameter for regularization. Next, we propose an iterative algorithm that, although greedily, searches the optimal histogram for every possible node split. Our experiments demonstrate that, in comparison to existing interpretable CDE methods, CDTrees are both more accurate (as measured by the log-loss) and more robust against irrelevant features. Further, our approach leads to smaller tree sizes than existing tree-based models, which benefits interpretability.
- Abstract(参考訳): 条件密度推定(CDE)は、完全な条件分布をモデル化し、回帰における条件平均以上のデータに対するより豊かな理解を提供する。
これにより、CDEは特に重要なアプリケーションドメインで役立ちます。
しかし、解釈可能なCDE法が検討されている。
現在の手法ではカーネルに基づくアプローチが一般的であり、カーネル密度推定や線形モデルの基底関数としてカーネル関数を直接使用する。
対照的に、その概念的単純さと視覚化性にもかかわらず、ツリーベースのメソッド(おそらくより理解しやすい)は、CDEタスクでは概して見過ごされてきました。
そこで本研究では,各葉がヒストグラムモデルによって形成される決定木からなる完全非パラメータモデルである条件密度木(CDTree)を提案する。
具体的には、最小記述長(MDL)原理を用いてCDTreeを学習する問題を定式化し、正規化のためにハイパーパラメータをチューニングする必要がなくなる。
次に,任意のノード分割に対して最適なヒストグラムを探索する反復アルゴリズムを提案する。
既存の解釈可能なCDE法と比較して,CDTreesは(ログロスによって測定されるように)より正確であり,無関係な特徴に対してより堅牢であることを示す。
さらに,本手法は既存の木モデルよりも木のサイズを小さくし,解釈可能性の向上に寄与する。
関連論文リスト
- Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Mixtures of All Trees [28.972995038976745]
我々は、すべての木の混合と呼ばれる新しい生成モデルのクラスを提案し、すなわち、$n$変数上のすべての可能な(nn-2$)木形のグラフィカルモデルに混合する。
我々は,この混合木モデル(MoAT)をコンパクトにパラメータ化することで,勾配勾配勾配による抽出可能な可能性と最適化を可能にすることを示す。
論文 参考訳(メタデータ) (2023-02-27T23:37:03Z) - Discrete Tree Flows via Tree-Structured Permutations [5.929956715430168]
離散フローベースモデルは、離散関数の勾配が未定義あるいはゼロであるため、従来のディープラーニング手法では直接最適化できない。
提案手法は,決定木に基づく離散フローを開発することにより,計算負担を低減し,擬似勾配の必要性を解消することを目的としている。
論文 参考訳(メタデータ) (2022-07-04T23:11:04Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - Spectral Top-Down Recovery of Latent Tree Models [13.681975313065477]
スペクトルトップダウン・リカバリ (STDR) は、大きな潜在木モデルを推定するための分割・コンカレントアプローチである。
STDRの分割ステップは非ランダムです。
代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。
私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。
論文 参考訳(メタデータ) (2021-02-26T02:47:42Z) - Visualizing hierarchies in scRNA-seq data using a density tree-biased
autoencoder [50.591267188664666]
本研究では,高次元scRNA-seqデータから意味のある木構造を同定する手法を提案する。
次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。
論文 参考訳(メタデータ) (2021-02-11T08:48:48Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Convex Polytope Trees [57.56078843831244]
コンベックスポリトープ木(CPT)は、決定境界の解釈可能な一般化によって決定木の系統を拡張するために提案される。
木構造が与えられたとき,木パラメータに対するCPTおよび拡張性のあるエンドツーエンドトレーニングアルゴリズムを効率的に構築する。
論文 参考訳(メタデータ) (2020-10-21T19:38:57Z) - ENTMOOT: A Framework for Optimization over Ensemble Tree Models [57.98561336670884]
ENTMOOTは、ツリーモデルをより大きな最適化問題に統合するためのフレームワークである。
ENTMOOTは、ツリーモデルの意思決定とブラックボックス最適化への単純な統合を可能にしていることを示す。
論文 参考訳(メタデータ) (2020-03-10T14:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。