論文の概要: Sparse Density Trees and Lists: An Interpretable Alternative to
High-Dimensional Histograms
- arxiv url: http://arxiv.org/abs/1510.06779v5
- Date: Wed, 15 Nov 2023 07:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 21:40:02.572986
- Title: Sparse Density Trees and Lists: An Interpretable Alternative to
High-Dimensional Histograms
- Title(参考訳): スパース密度木とリスト:高次元ヒストグラムの解釈可能な代替
- Authors: Siong Thye Goh, Lesia Semenova, Cynthia Rudin
- Abstract要約: 本稿では,二項・分類データのツリーベースおよびリストベース密度推定手法を提案する。
我々の密度推定モデルは、可変ビン幅ヒストグラムの高次元類似である。
本稿では,犯罪分析への応用について述べる。そこでは,各形態のオペランディがハウスブレークインに対してどの程度異常であるかを推定する。
- 参考スコア(独自算出の注目度): 19.134568072720956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present sparse tree-based and list-based density estimation methods for
binary/categorical data. Our density estimation models are higher dimensional
analogies to variable bin width histograms. In each leaf of the tree (or list),
the density is constant, similar to the flat density within the bin of a
histogram. Histograms, however, cannot easily be visualized in more than two
dimensions, whereas our models can. The accuracy of histograms fades as
dimensions increase, whereas our models have priors that help with
generalization. Our models are sparse, unlike high-dimensional fixed-bin
histograms. We present three generative modeling methods, where the first one
allows the user to specify the preferred number of leaves in the tree within a
Bayesian prior. The second method allows the user to specify the preferred
number of branches within the prior. The third method returns density lists
(rather than trees) and allows the user to specify the preferred number of
rules and the length of rules within the prior. The new approaches often yield
a better balance between sparsity and accuracy of density estimates than other
methods for this task. We present an application to crime analysis, where we
estimate how unusual each type of modus operandi is for a house break-in.
- Abstract(参考訳): 本稿では,バイナリ/カテゴリデータに対するスパースツリーベースおよびリストベース密度推定法を提案する。
我々の密度推定モデルは、可変ビン幅ヒストグラムの高次元類似である。
木(またはリスト)の各葉では、密度は一定であり、ヒストグラムのビン内の平坦な密度と似ている。
しかし、ヒストグラムは2次元以上では容易に可視化できない。
ヒストグラムの精度は次元が大きくなるにつれて低下するが、我々のモデルには一般化に役立つ先行項がある。
我々のモデルは、高次元固定ビンヒストグラムとは異なり、わずかである。
まず3つの生成的モデリング手法を提案する。1つはユーザがベイズ前の木内の葉の数を指定できる手法である。
第2の方法は、ユーザが事前のブランチ数を指定できるようにする。
第3のメソッドは(木ではなく)密度リストを返却し、ユーザが優先するルールの数と前回のルールの長さを指定できるようにする。
新しいアプローチは、このタスクの他の方法よりも、スパーシティと密度推定の精度のバランスを良くすることが多い。
犯罪分析への応用として,各モードのオペランディがいかに異常であるかを推定する。
関連論文リスト
- Conditional Density Estimation with Histogram Trees [3.5297361401370044]
条件密度推定(CDE)は、完全な条件分布をモデル化することによって回帰を超える。
現在の手法ではカーネルに基づくアプローチが一般的であり、カーネル密度推定や線形モデルの基底関数としてカーネル関数を直接使用する。
本研究では,各葉がヒストグラムモデルによって形成される決定木からなる完全非パラメータモデルである条件密度木(CDTree)を提案する。
論文 参考訳(メタデータ) (2024-10-15T09:53:24Z) - Sparse Training of Discrete Diffusion Models for Graph Generation [45.103518022696996]
SparseDiffは、ほとんど全ての大きなグラフがスパースであるという観察に基づく、新しい拡散モデルである。
エッジのサブセットを選択することで、SparseDiffは、ノイズ発生過程とノイズ発生ネットワーク内のスパースグラフ表現を効果的に活用する。
本モデルでは,小規模・大規模両方のデータセットにおいて,複数のメトリクスにわたる最先端性能を示す。
論文 参考訳(メタデータ) (2023-11-03T16:50:26Z) - Two-level histograms for dealing with outliers and heavy tail
distributions [0.0]
我々は,G-Enumヒストグラム法に着目し,最小記述長(MDL)の原理を用いてユーザパラメータを使わずにヒストグラムを構築する。
本研究では, 降圧器や重み付き分布の場合に, この手法の限界について検討する。
最初のレベルはデータの対数変換を利用して、データセットを制御範囲の値を持つデータサブセットのリストに分割する。
第2のレベルは、各データサブセットに対してサブヒストグラムを構築し、それらを集約して完全なヒストグラムを得る。
論文 参考訳(メタデータ) (2023-06-09T09:57:18Z) - Contour Context: Abstract Structural Distribution for 3D LiDAR Loop
Detection and Metric Pose Estimation [31.968749056155467]
本稿では,高精度な3DoF距離ポーズ推定を用いた簡易かつ効果的かつ効率的なトポロジカルループ閉包検出パイプラインを提案する。
我々は,3次元LiDAR点から投影されるBEV像を構造層分布として解釈する。
検索キーは、層状KD木でインデックスされたデータベースの検索を高速化するように設計されている。
論文 参考訳(メタデータ) (2023-02-13T07:18:24Z) - Unveiling the Sampling Density in Non-Uniform Geometric Graphs [69.93864101024639]
グラフを幾何学グラフとみなす: ノードは基礎となる計量空間からランダムにサンプリングされ、その距離が指定された近傍半径以下であれば任意のノードが接続される。
ソーシャルネットワークでは、コミュニティは密集したサンプル領域としてモデル化でき、ハブはより大きな近傍半径を持つノードとしてモデル化できる。
我々は,未知のサンプリング密度を自己監督的に推定する手法を開発した。
論文 参考訳(メタデータ) (2022-10-15T08:01:08Z) - Wasserstein Iterative Networks for Barycenter Estimation [80.23810439485078]
生成モデルを用いて連続測度のワッサーシュタイン2バリセンターを近似するアルゴリズムを提案する。
有名人の顔のデータセットに基づいて、バリセンタアルゴリズムの定量的評価に使用できるAve, celeba!データセットを構築した。
論文 参考訳(メタデータ) (2022-01-28T16:59:47Z) - Sketch-Based Anomaly Detection in Streaming Graphs [89.52200264469364]
動的グラフからのグラフエッジのストリームを前提に、オンライン形式でエッジやサブグラフに異常スコアを割り当てるにはどうすればよいのか?
本手法は,高密度部分グラフ探索を取り入れた最初のストリーミング手法であり,一定時間におけるグラフ異常を検出する。
論文 参考訳(メタデータ) (2021-06-08T16:10:36Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Unsupervised Discretization by Two-dimensional MDL-based Histogram [0.0]
教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
本稿では,2次元データのより柔軟な分割を可能にする表現型モデルクラスを提案する。
本稿では,各次元を交互に分割し,隣接する領域をマージするPALMというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T19:19:49Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。