論文の概要: Density-based interpretable hypercube region partitioning for mixed
numeric and categorical data
- arxiv url: http://arxiv.org/abs/2110.05430v1
- Date: Mon, 11 Oct 2021 17:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 21:36:20.796155
- Title: Density-based interpretable hypercube region partitioning for mixed
numeric and categorical data
- Title(参考訳): 混合数値および分類データのための密度に基づく解釈可能なハイパーキューブ領域分割
- Authors: Samuel Ackerman, Eitan Farchi, Orna Raz, Marcel Zalmanovici, Maya
Zohar
- Abstract要約: ユーザーは、特徴空間のどこが集中しているか、それがスパースか空であるかを知りたいかもしれない。
本手法は,観測された特徴空間の観測密度に基づく分割を,そのような領域に分割する。
元のドメインの混合型(数値または分類)の機能に作用し、空のリージョンも分離できるという点で、他のドメインよりも多くの利点がある。
- 参考スコア(独自算出の注目度): 2.0159253466233222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider a structured dataset of features, such as $\{\textrm{SEX},
\textrm{INCOME}, \textrm{RACE}, \textrm{EXPERIENCE}\}$. A user may want to know
where in the feature space observations are concentrated, and where it is
sparse or empty. The existence of large sparse or empty regions can provide
domain knowledge of soft or hard feature constraints (e.g., what is the typical
income range, or that it may be unlikely to have a high income with few years
of work experience). Also, these can suggest to the user that machine learning
(ML) model predictions for data inputs in sparse or empty regions may be
unreliable.
An interpretable region is a hyper-rectangle, such as $\{\textrm{RACE}
\in\{\textrm{Black}, \textrm{White}\}\}\:\&$ $\{10 \leq \:\textrm{EXPERIENCE}
\:\leq 13\}$, containing all observations satisfying the constraints;
typically, such regions are defined by a small number of features. Our method
constructs an observation density-based partition of the observed feature space
in the dataset into such regions. It has a number of advantages over others in
that it works on features of mixed type (numeric or categorical) in the
original domain, and can separate out empty regions as well.
As can be seen from visualizations, the resulting partitions accord with
spatial groupings that a human eye might identify; the results should thus
extend to higher dimensions. We also show some applications of the partition to
other data analysis tasks, such as inferring about ML model error, measuring
high-dimensional density variability, and causal inference for treatment
effect. Many of these applications are made possible by the hyper-rectangular
form of the partition regions.
- Abstract(参考訳): 例えば $\{\textrm{SEX}, \textrm{INCOME}, \textrm{RACE}, \textrm{EXPERIENCE}\}$ などです。
ユーザーは、機能空間の観察が集中している場所と、それがスパースまたは空である場所を知りたがるかもしれない。
大きなスパースまたは空の領域の存在は、ソフトまたはハードな特徴の制約(例えば、典型的な収入範囲は何か、あるいは数年の仕事経験を持つ高い収入を持つ可能性は低い)のドメイン知識を提供することができる。
また、スパースまたは空の領域におけるデータ入力に対する機械学習(ml)モデル予測は信頼できない可能性があることをユーザに示唆する。
解釈可能な領域は超矩形であり、例えば $\{\textrm{RACE} \in\{\textrm{Black}, \textrm{White}\}\}\}\:\&$ $\{10 \leq \:\textrm{EXPERIENCE} \:\leq 13\}$ は制約を満たす全ての観測を含む。
本手法では,観測された特徴空間の観測密度に基づく分割をその領域に構築する。
元のドメインにおける混合型(数値またはカテゴリ)の機能で動作し、空の領域も分離できるという点で、他の領域よりも多くの利点がある。
可視化で見られるように、結果として生じる分割は、人間の目が識別できる空間的グループ化と一致し、その結果はより高次元に拡張されるべきである。
また,mlモデル誤差の推測,高次元密度変動の測定,治療効果の因果推論など,他のデータ解析タスクへの分割の適用例を示す。
これらの応用の多くは分割領域の超正方形形式によって可能である。
関連論文リスト
- Density based Spatial Clustering of Lines via Probabilistic Generation of Neighbourhood [0.0]
本稿では,固定ボリュームの行に対して,カスタマイズされた近傍領域を生成するクラスタリングアルゴリズムを設計する。
このアルゴリズムは外れ値に敏感ではなく、濃度パラメータを用いてデータのノイズを効果的に識別することができる。
このアルゴリズムの重要な応用の1つは、データポイントを不足したエントリを持つ$mathbbRn$にクラスタリングすることである。
論文 参考訳(メタデータ) (2024-10-03T08:17:11Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - From Charts to Atlas: Merging Latent Spaces into One [15.47502439734611]
意味的に関連するデータセットとタスクに基づいてトレーニングされたモデルは、潜在空間内でのサンプル間関係に匹敵する。
相対的空間アグリゲーション(Relative Latent Space Aggregation)という2段階のアプローチを導入し、まず相対表現を用いて空間を同等にレンダリングし、簡単な平均でそれらを集約する。
集約された空間と、すべてのタスクで訓練されたエンドツーエンドモデルから導出された空間を比較し、この2つの空間が類似していることを示す。
論文 参考訳(メタデータ) (2023-11-11T11:51:41Z) - Tight and fast generalization error bound of graph embedding in metric
space [54.279425319381374]
非ユークリッド計量空間へのグラフ埋め込みは、既存の有界よりもはるかに少ない訓練データを持つユークリッド空間におけるグラフ埋め込みよりも優れていることを示す。
我々の新しい上限は、既存の上限よりもかなり強く速く、最大で$R$と$O(frac1S)$に指数関数できる。
論文 参考訳(メタデータ) (2023-05-13T17:29:18Z) - Sparse Subspace Clustering Friendly Deep Dictionary Learning for
Hyperspectral Image Classification [25.255184843886227]
深部辞書学習(DDL)の長所に基づく変換を提案する。
特に,DDLの定式化において,スパース部分空間クラスタリング(SSC)損失を考慮に入れた。
提案手法は,ハイパースペクトル画像クラスタリングにおける最先端の深層学習技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-27T15:23:58Z) - Low-Rank Subspaces in GANs [101.48350547067628]
この研究は、GAN生成をより正確に制御できる低ランクな部分空間を導入している。
LowRankGAN は属性多様体の低次元表現を見つけることができる。
さまざまなデータセットでトレーニングされた最先端のGANモデル(StyleGAN2やBigGANなど)の実験は、私たちのLowRankGANの有効性を示しています。
論文 参考訳(メタデータ) (2021-06-08T16:16:32Z) - Non-Salient Region Object Mining for Weakly Supervised Semantic
Segmentation [64.2719590819468]
弱教師付きセマンティックセグメンテーションのための非塩分領域オブジェクトマイニング手法を提案する。
擬似ラベルの偽陰性率を低減するために、潜在的なオブジェクトマイニングモジュールを提案する。
非サリエント領域マスキングモジュールは、非サリエント領域内のオブジェクトをさらに発見するのに役立ちます。
論文 参考訳(メタデータ) (2021-03-26T16:44:03Z) - Exact Recovery of Clusters in Finite Metric Spaces Using Oracle Queries [22.672233769934845]
オラクルクエリを用いたクラスタ依存の正確な問題について検討する。
任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意の任意
論文 参考訳(メタデータ) (2021-01-31T18:00:29Z) - Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral
Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction [48.73525876467408]
本稿では,超スペクトル部分空間解析のための新しい手法を提案する。
この手法はジョイント・アンド・プログレッシブ・サブスペース分析(JPSA)と呼ばれる。
2つの広帯域超スペクトルデータセットに対して提案したJPSAの優位性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-09-21T16:29:59Z) - Learning Search Space Partition for Black-box Optimization using Monte
Carlo Tree Search [36.276082603305674]
高次元ブラックボックス最適化には幅広い応用があるが、解決するのは難しい問題である。
LaNASのような最近の研究は、Neural Architecture Search(NAS)で優れたパフォーマンスを示している。
LA-MCTSはLaNASを他のドメインに拡張します。
論文 参考訳(メタデータ) (2020-07-01T19:17:47Z) - From Open Set to Closed Set: Supervised Spatial Divide-and-Conquer for
Object Counting [84.23313278891568]
本研究では,空間分割コンカレントネットワーク(SS-DCNet)の概念を導入し,オープンセットカウントをクローズドセット問題に変換する。
SS-DCNetはクローズドセットからしか学べないが、S-DCを介してオープンセットシナリオにうまく一般化できる。
本稿では, 理論解析と玩具データの制御実験を行い, クローズド・セット・モデリングがなぜ意味を持つのかを実証する。
論文 参考訳(メタデータ) (2020-01-07T04:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。