論文の概要: Two-level histograms for dealing with outliers and heavy tail
distributions
- arxiv url: http://arxiv.org/abs/2306.05786v1
- Date: Fri, 9 Jun 2023 09:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 13:47:11.659800
- Title: Two-level histograms for dealing with outliers and heavy tail
distributions
- Title(参考訳): 外乱と重み分布を扱うための2レベルヒストグラム
- Authors: Marc Boull\'e
- Abstract要約: 我々は,G-Enumヒストグラム法に着目し,最小記述長(MDL)の原理を用いてユーザパラメータを使わずにヒストグラムを構築する。
本研究では, 降圧器や重み付き分布の場合に, この手法の限界について検討する。
最初のレベルはデータの対数変換を利用して、データセットを制御範囲の値を持つデータサブセットのリストに分割する。
第2のレベルは、各データサブセットに対してサブヒストグラムを構築し、それらを集約して完全なヒストグラムを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Histograms are among the most popular methods used in exploratory analysis to
summarize univariate distributions. In particular, irregular histograms are
good non-parametric density estimators that require very few parameters: the
number of bins with their lengths and frequencies. Many approaches have been
proposed in the literature to infer these parameters, either assuming
hypotheses about the underlying data distributions or exploiting a model
selection approach. In this paper, we focus on the G-Enum histogram method,
which exploits the Minimum Description Length (MDL) principle to build
histograms without any user parameter and achieves state-of-the art performance
w.r.t accuracy; parsimony and computation time. We investigate on the limits of
this method in the case of outliers or heavy-tailed distributions. We suggest a
two-level heuristic to deal with such cases. The first level exploits a
logarithmic transformation of the data to split the data set into a list of
data subsets with a controlled range of values. The second level builds a
sub-histogram for each data subset and aggregates them to obtain a complete
histogram. Extensive experiments show the benefits of the approach.
- Abstract(参考訳): ヒストグラムは探索分析において不定分布を要約するために用いられる最も一般的な方法の一つである。
特に、不規則なヒストグラムは、非常に少ないパラメータ(長さと周波数のビンの数)を必要とする優れた非パラメトリック密度推定器である。
基礎となるデータ分布に関する仮説を仮定したり、モデル選択アプローチを利用するなど、これらのパラメータを推測するための多くのアプローチが文献で提案されている。
本稿では,最少記述長(mdl)原理を生かしてユーザパラメータ無しでヒストグラムを構築するg-enum histogram法に着目し,技術性能w.r.t精度,パシモニーと計算時間を実現する。
異常値や重み付き分布の場合,本手法の限界について検討する。
このようなケースに対処するための2段階のヒューリスティックを提案する。
第1のレベルは、データの対数変換を利用して、データセットを、制御された値範囲のデータサブセットのリストに分割する。
第2レベルは、各データサブセットに対してサブヒストグラムを構築し、それらを集約して完全なヒストグラムを得る。
大規模な実験はアプローチの利点を示している。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Fast and fully-automated histograms for large-scale data sets [0.0]
G-Enumヒストグラムは不規則ヒストグラム構築のための新しい高速かつ完全に自動化された方法である。
最小記述長の原理を利用して、2つの異なるモデル選択基準を導出する。
論文 参考訳(メタデータ) (2022-12-27T15:37:10Z) - Multiclass histogram-based thresholding using kernel density estimation
and scale-space representations [0.0]
非パラメトリックカーネル密度(KD)推定に基づくヒストグラムのマルチクラスしきい値抽出法を提案する。
提案手法は,KD推定値から抽出した最小値の数と要求クラスタ数とを比較した。
本手法は,合成ヒストグラムとしきい値の既知値を用いて,実X線CT画像のヒストグラムを用いて検証する。
論文 参考訳(メタデータ) (2022-02-10T01:03:43Z) - ECOD: Unsupervised Outlier Detection Using Empirical Cumulative
Distribution Functions [12.798256312657136]
外乱検出(英: Outlier detection)とは、一般的なデータ分布から逸脱するデータ点の同定である。
本稿では,ECOD(Empirical-Cumulative-Distribution-based Outlier Detection)について述べる。
論文 参考訳(メタデータ) (2022-01-02T17:28:35Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - The Earth Mover's Pinball Loss: Quantiles for Histogram-Valued
Regression [0.0]
本稿では,クロスビン情報を組み込んだDeep Learningベースのヒストグラム回帰法を提案する。
本手法は,具体例,サッカー関連課題,天体物理学的コンピュータビジョン問題を用いて検証する。
論文 参考訳(メタデータ) (2021-06-03T18:00:04Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z) - Sparse Density Trees and Lists: An Interpretable Alternative to
High-Dimensional Histograms [19.134568072720956]
本稿では,二項・分類データのツリーベースおよびリストベース密度推定手法を提案する。
我々の密度推定モデルは、可変ビン幅ヒストグラムの高次元類似である。
本稿では,犯罪分析への応用について述べる。そこでは,各形態のオペランディがハウスブレークインに対してどの程度異常であるかを推定する。
論文 参考訳(メタデータ) (2015-10-22T22:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。