論文の概要: Unsupervised Discretization by Two-dimensional MDL-based Histogram
- arxiv url: http://arxiv.org/abs/2006.01893v3
- Date: Mon, 18 Jul 2022 14:54:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:46:34.067359
- Title: Unsupervised Discretization by Two-dimensional MDL-based Histogram
- Title(参考訳): 二次元MDLヒストグラムによる教師なし離散化
- Authors: Lincen Yang, Mitra Baratchi, and Matthijs van Leeuwen
- Abstract要約: 教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
本稿では,2次元データのより柔軟な分割を可能にする表現型モデルクラスを提案する。
本稿では,各次元を交互に分割し,隣接する領域をマージするPALMというアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised discretization is a crucial step in many knowledge discovery
tasks. The state-of-the-art method for one-dimensional data infers locally
adaptive histograms using the minimum description length (MDL) principle, but
the multi-dimensional case is far less studied: current methods consider the
dimensions one at a time (if not independently), which result in
discretizations based on rectangular cells of adaptive size. Unfortunately,
this approach is unable to adequately characterize dependencies among
dimensions and/or results in discretizations consisting of more cells (or bins)
than is desirable.
To address this problem, we propose an expressive model class that allows for
far more flexible partitions of two-dimensional data. We extend the state of
the art for the one-dimensional case to obtain a model selection problem based
on the normalized maximum likelihood, a form of refined MDL. As the flexibility
of our model class comes at the cost of a vast search space, we introduce a
heuristic algorithm, named PALM, which Partitions each dimension ALternately
and then Merges neighboring regions, all using the MDL principle. Experiments
on synthetic data show that PALM 1) accurately reveals ground truth partitions
that are within the model class (i.e., the search space), given a large enough
sample size; 2) approximates well a wide range of partitions outside the model
class; 3) converges, in contrast to the state-of-the-art multivariate
discretization method IPD. Finally, we apply our algorithm to three spatial
datasets, and we demonstrate that, compared to kernel density estimation (KDE),
our algorithm not only reveals more detailed density changes, but also fits
unseen data better, as measured by the log-likelihood.
- Abstract(参考訳): 教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
1次元データに対する最先端の手法は、最小記述長(MDL)原理を用いて局所適応ヒストグラムを推定するが、多次元の場合の研究ははるかに少ない。
残念なことに、このアプローチは寸法間の依存関係を適切に特徴づけることができず、望まれるよりも多くの細胞(またはビン)からなる離散化をもたらす。
この問題に対処するために,より柔軟な2次元データの分割を可能にする表現型モデルクラスを提案する。
本稿では,一次元の場合の技巧状態を拡張し,mdlの形式である正規化最大度に基づくモデル選択問題を得る。
モデルクラスの柔軟性が巨大な探索空間のコストになるにつれて、各次元を交互に分割し、隣接する領域をマージするヒューリスティックアルゴリズム、palmを導入する。
合成データによる実験から、PALMは
1) 十分なサンプルサイズを与えられたモデルクラス(すなわち探索空間)内にある基底真理分割を正確に明らかにすること。
2) モデルクラスの外側の広い範囲の分割をよく近似する。
3) 最先端多変量離散化法 (PD) とは対照的に収束する。
最後に,このアルゴリズムを3つの空間データセットに適用し,カーネル密度推定 (kde) と比較して,より詳細な密度変化を示すだけでなく,log-likelihood で測定した非知覚データにも適合することを示す。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Optimal Discriminant Analysis in High-Dimensional Latent Factor Models [1.4213973379473654]
高次元分類問題において、一般的に用いられるアプローチは、まず高次元の特徴を低次元空間に射影することである。
我々は、この2段階の手順を正当化するために、隠れた低次元構造を持つ潜在変数モデルを定式化する。
観測された特徴の特定の主成分(PC)を射影とする計算効率の良い分類器を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:45:53Z) - Laplacian-based Cluster-Contractive t-SNE for High Dimensional Data
Visualization [20.43471678277403]
本稿では t-SNE に基づく新しいグラフベース次元削減手法 LaptSNE を提案する。
具体的には、LaptSNEはグラフラプラシアンの固有値情報を利用して、低次元埋め込みにおけるポテンシャルクラスタを縮小する。
ラプラシアン合成目的による最適化を考える際には、より広い関心を持つであろう勾配を解析的に計算する方法を示す。
論文 参考訳(メタデータ) (2022-07-25T14:10:24Z) - Robust Multi-view Registration of Point Sets with Laplacian Mixture
Model [25.865100974015412]
重み付きラプラシアン分布に基づいて複数の点集合を整列させる新しい確率的生成法を提案する。
本稿では,提案手法の利点を,ベンチマークの挑戦的データセットに対する最先端手法と比較することによって示す。
論文 参考訳(メタデータ) (2021-10-26T14:49:09Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - The classification for High-dimension low-sample size data [3.411873646414169]
本稿では,クラス分離可能性の前提として,クラス内分散の類似性を強調する,HDLSSの新たな分類基準を提案する。
この基準により、非分離データ分散最大値 (NPDMD) で表される新しい線形二分分類器が設計される。
NPDMDは最先端の分類法と比較していくつかの特徴がある。
論文 参考訳(メタデータ) (2020-06-21T07:04:16Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。