論文の概要: Extreme-K categorical samples problem
- arxiv url: http://arxiv.org/abs/2007.15039v1
- Date: Wed, 29 Jul 2020 18:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 21:04:25.941560
- Title: Extreme-K categorical samples problem
- Title(参考訳): 極Kカテゴリー標本問題
- Authors: Elizabeth Chou, Catie McVey, Yin-Chen Hsieh, Sabrina Enriquez, Fushing
Hsieh
- Abstract要約: 我々は,極値のサンプル問題の下で,カテゴリ的探索データ分析(CEDA)を開発する。
信頼性を評価するため,行列模倣のアンサンブルを生成するために,行ごとの多項ランダム性を採用する。
CEDAの4つの応用は、極端な$Kのサンプル問題の4つの重要な側面を照らす。
- 参考スコア(独自算出の注目度): 0.41998444721319206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With histograms as its foundation, we develop Categorical Exploratory Data
Analysis (CEDA) under the extreme-$K$ sample problem, and illustrate its
universal applicability through four 1D categorical datasets. Given a sizable
$K$, CEDA's ultimate goal amounts to discover by data's information content via
carrying out two data-driven computational tasks: 1) establish a tree geometry
upon $K$ populations as a platform for discovering a wide spectrum of patterns
among populations; 2) evaluate each geometric pattern's reliability. In CEDA
developments, each population gives rise to a row vector of categories
proportions. Upon the data matrix's row-axis, we discuss the pros and cons of
Euclidean distance against its weighted version for building a binary
clustering tree geometry. The criterion of choice rests on degrees of
uniformness in column-blocks framed by this binary clustering tree. Each
tree-leaf (population) is then encoded with a binary code sequence, so is
tree-based pattern. For evaluating reliability, we adopt row-wise multinomial
randomness to generate an ensemble of matrix mimicries, so an ensemble of
mimicked binary trees. Reliability of any observed pattern is its recurrence
rate within the tree ensemble. A high reliability value means a deterministic
pattern. Our four applications of CEDA illuminate four significant aspects of
extreme-$K$ sample problems.
- Abstract(参考訳): ヒストグラムを基礎として,極値のサンプル問題に基づくカテゴリー探索データ解析(CEDA)を開発し,その普遍的適用性を4つの1次元分類データセットで示す。
CEDAの最終的な目標は、データ駆動の2つの計算タスクを実行することで、データの情報コンテンツを検出することである。
1) 人口の広い範囲のパターンを発見するためのプラットフォームとして,k$人口の樹形を確立すること。
2) 各幾何パターンの信頼性を評価する。
CEDAの発展において、各人口はカテゴリ比の行ベクトルを得る。
データマトリックスの行軸について,双対クラスタリング木構造を構築するための重み付きバージョンに対してユークリッド距離の長所と短所について論じる。
選択の基準は、このバイナリクラスタリングツリーによってフレーム化されたカラムブロックの均一度に依存する。
各ツリーリーフ(人口)はバイナリコードシーケンスでエンコードされるので、ツリーベースのパターンである。
信頼性を評価するために,行列模倣のアンサンブルを生成するために,列方向の多項ランダム性を採用する。
観察されたパターンの信頼性は、ツリーアンサンブル内の再発率である。
高い信頼性は決定論的パターンを意味する。
CEDAの4つの応用は、極端な$Kのサンプル問題の4つの重要な側面を照らす。
関連論文リスト
- Optimal Mixed Integer Linear Optimization Trained Multivariate Classification Trees [0.0]
最適二分分類木を設計するための2つのカットベース混合整数線形最適化(MILO)法を提案する。
我々のモデルは、最小限の実用不可能なサブシステム(MIS)をオンザフライで識別し、パッケージング制約の形をとる切断平面を導出する。
論文 参考訳(メタデータ) (2024-08-02T14:37:28Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - Information-Theoretic Thresholds for Planted Dense Cycles [52.076657911275525]
本研究では,社会科学や生物科学においてユビキタスな小世界ネットワークのランダムグラフモデルについて検討する。
植え込み高密度サイクルの検出と回復の両面において、情報理論の閾値を$n$, $tau$、エッジワイド信号対雑音比$lambda$で特徴づける。
論文 参考訳(メタデータ) (2024-02-01T03:39:01Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Mixed integer linear optimization formulations for learning optimal
binary classification trees [0.0]
最適二分分類木を設計するための4つの混合整数線形最適化(MILO)法を提案する。
モデルをスケールする能力を示すために、13の公開データセットで実験を行います。
論文 参考訳(メタデータ) (2022-06-10T03:10:14Z) - HyperAid: Denoising in hyperbolic spaces for tree-fitting and
hierarchical clustering [36.738414547278154]
双曲空間におけるツリーメトリック・デノイング(HyperAid)に対する新しいアプローチを提案する。
Gromovの$delta$ hyperbolicity($delta$ hyperbolicity)の観点から評価すると、元のデータをツリーのようなデータに変換する。
我々はHyperAidを非負のエッジウェイトを強制するためのスキームに統合する。
論文 参考訳(メタデータ) (2022-05-19T17:33:16Z) - Robustifying Algorithms of Learning Latent Trees with Vector Variables [92.18777020401484]
Recursive Grouping (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑性について述べる。
RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。
我々は、潜在木の構造学習において、最初の既知のインスタンス依存の不合理性の結果を導出する。
論文 参考訳(メタデータ) (2021-06-02T01:37:52Z) - Spectral Top-Down Recovery of Latent Tree Models [13.681975313065477]
スペクトルトップダウン・リカバリ (STDR) は、大きな潜在木モデルを推定するための分割・コンカレントアプローチである。
STDRの分割ステップは非ランダムです。
代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。
私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。
論文 参考訳(メタデータ) (2021-02-26T02:47:42Z) - nTreeClus: a Tree-based Sequence Encoder for Clustering Categorical
Series [0.0]
本稿では,nTreeClusというクラスタリングシーケンスデータに対するモデルに基づく新しいアプローチを提案する。
この新しい表現を採用することで、分類的時系列に固有のパターンを考慮し、シーケンスをクラスタ化する。
合成および実際のデータセット、タンパク質配列、カテゴリー時系列を用いた経験的評価は、nTreeClusが最先端のアルゴリズムよりも競合的あるいは優れていることを示した。
論文 参考訳(メタデータ) (2021-02-20T03:58:17Z) - Visualizing hierarchies in scRNA-seq data using a density tree-biased
autoencoder [50.591267188664666]
本研究では,高次元scRNA-seqデータから意味のある木構造を同定する手法を提案する。
次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。
論文 参考訳(メタデータ) (2021-02-11T08:48:48Z) - Convex Polytope Trees [57.56078843831244]
コンベックスポリトープ木(CPT)は、決定境界の解釈可能な一般化によって決定木の系統を拡張するために提案される。
木構造が与えられたとき,木パラメータに対するCPTおよび拡張性のあるエンドツーエンドトレーニングアルゴリズムを効率的に構築する。
論文 参考訳(メタデータ) (2020-10-21T19:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。