論文の概要: Distances with mixed type variables some modified Gower's coefficients
- arxiv url: http://arxiv.org/abs/2101.02481v1
- Date: Thu, 7 Jan 2021 11:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:48:27.331097
- Title: Distances with mixed type variables some modified Gower's coefficients
- Title(参考訳): ガウワー係数を修正した混合型変数を持つ距離
- Authors: Marcello D'Orazio
- Abstract要約: 距離関数の選択は、主に選択された変数のタイプに依存します。
混合型変数の最も一般的な距離は、ゴーワーの類似度係数の補数として導かれる。
この記事では、全体的な未重み付きGower距離に影響を与える主な欠点に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Nearest neighbor methods have become popular in official statistics, mainly
in imputation or in statistical matching problems; they play a key role in
machine learning too, where a high number of variants have been proposed. The
choice of the distance function depends mainly on the type of the selected
variables. Unfortunately, relatively few options permit to handle mixed type
variables, a situation frequently encountered in official statistics. The most
popular distance for mixed type variables is derived as the complement of the
Gower's similarity coefficient; it is appealing because ranges between 0 and 1
and allows to handle missing values. Unfortunately, the unweighted standard
setting the contribution of the single variables to the overall Gower's
distance is unbalanced because of the different nature of the variables
themselves. This article tries to address the main drawbacks that affect the
overall unweighted Gower's distance by suggesting some modifications in
calculating the distance on the interval and ratio scaled variables. Simple
modifications try to attenuate the impact of outliers on the scaled Manhattan
distance; other modifications, relying on the kernel density estimation methods
attempt to reduce the unbalanced contribution of the different types of
variables. The performance of the proposals is evaluated in simulations
mimicking the imputation of missing values through nearest neighbor distance
hotdeck method.
- Abstract(参考訳): 最も近い近隣の手法は、主に計算や統計的マッチング問題において公式統計学で人気となり、多くの変種が提案されている機械学習においても重要な役割を担っている。
距離関数の選択は、主に選択された変数の種類に依存する。
残念なことに、混合型変数を扱うオプションは比較的少なく、公式統計では頻繁に発生する状況である。
混合型変数の最も一般的な距離は、ゴーワーの類似度係数の補数として導出される。
残念なことに、単一の変数のゴーワー距離への寄与を設定する非重み付き標準は、変数自体の異なる性質のためにバランスがとれない。
本稿は,間隔とスケールした変数間の距離を計算する際のいくつかの修正を提案することにより,非重み付けゴワー距離全体に影響を及ぼす主な欠点を解決しようとするものである。
単純な修正は、スケールされたマンハッタン距離に対する異常値の影響を弱めようとするが、その他の修正は、異なる種類の変数の不均衡な寄与を減らすために、カーネル密度推定法に依存している。
提案手法の性能は,近接距離ホットデッキ法による欠落値の予測を模倣したシミュレーションにより評価した。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Model-independent variable selection via the rule-based variable priority [1.2771542695459488]
モデルに依存しない新しいアプローチである可変優先度(VarPro)を導入する。
VarProは、人工データを生成したり、予測エラーを評価することなく、ルールを活用する。
VarProはノイズ変数に対して一貫したフィルタリング特性を持つことを示す。
論文 参考訳(メタデータ) (2024-09-13T17:32:05Z) - Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Gower's similarity coefficients with automatic weight selection [0.0]
混合型変数に対する最も一般的な相似性は、ゴーワーの類似性係数の1つを補うものとして導かれる。
重み付けスキームに関する議論は、しばしば非重み付けの「標準」設定が全体の相似性に対する単一の変数の不均衡な寄与を隠すことを無視するので、誤解を招くことがある。
この欠点は、各寄与相違性と結果の重み付け相違との相関関係を最小化する重み付けスキームを導入するという最近の考え方に倣って解決される。
論文 参考訳(メタデータ) (2024-01-30T14:21:56Z) - Non-parametric Conditional Independence Testing for Mixed
Continuous-Categorical Variables: A Novel Method and Numerical Evaluation [14.993705256147189]
条件独立テスト(CIT)は機械学習において一般的なタスクである。
多くの実世界のアプリケーションは、数値変数と分類変数を含む混合型データセットを含んでいる。
分類変数を数値として扱わない従来のアプローチのバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T10:29:23Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Dual-sPLS: a family of Dual Sparse Partial Least Squares regressions for
feature selection and prediction with tunable sparsity; evaluation on
simulated and near-infrared (NIR) data [1.6099403809839032]
この論文で示された変種であるDual-sPLSは、古典的なPLS1アルゴリズムを一般化する。
正確な予測と効率的な解釈のバランスを提供する。
コードはRでオープンソースパッケージとして提供される。
論文 参考訳(メタデータ) (2023-01-17T21:50:35Z) - VarCLR: Variable Semantic Representation Pre-training via Contrastive
Learning [84.70916463298109]
VarCLRは変数名のセマンティック表現を学ぶための新しいアプローチである。
VarCLRはコントラスト学習に適しており、明示的に類似した入力間の距離を最小化することを目的としている。
VarCLRはBERTのような洗練された汎用言語モデルを効果的に適用できることを示す。
論文 参考訳(メタデータ) (2021-12-05T18:40:32Z) - Double Control Variates for Gradient Estimation in Discrete Latent
Variable Models [32.33171301923846]
スコア関数推定器の分散化手法を提案する。
我々の推定器は、他の最先端推定器と比較してばらつきが低いことを示す。
論文 参考訳(メタデータ) (2021-11-09T18:02:42Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。