論文の概要: Gower's similarity coefficients with automatic weight selection
- arxiv url: http://arxiv.org/abs/2401.17041v1
- Date: Tue, 30 Jan 2024 14:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:40:52.550461
- Title: Gower's similarity coefficients with automatic weight selection
- Title(参考訳): 重量自動選択によるゴーワーの類似度係数
- Authors: Marcello D'Orazio
- Abstract要約: 混合型変数に対する最も一般的な相似性は、ゴーワーの類似性係数の1つを補うものとして導かれる。
重み付けスキームに関する議論は、しばしば非重み付けの「標準」設定が全体の相似性に対する単一の変数の不均衡な寄与を隠すことを無視するので、誤解を招くことがある。
この欠点は、各寄与相違性と結果の重み付け相違との相関関係を最小化する重み付けスキームを導入するという最近の考え方に倣って解決される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Nearest-neighbor methods have become popular in statistics and play a key
role in statistical learning. Important decisions in nearest-neighbor methods
concern the variables to use (when many potential candidates exist) and how to
measure the dissimilarity between units. The first decision depends on the
scope of the application while second depends mainly on the type of variables.
Unfortunately, relatively few options permit to handle mixed-type variables, a
situation frequently encountered in practical applications. The most popular
dissimilarity for mixed-type variables is derived as the complement to one of
the Gower's similarity coefficient. It is appealing because ranges between 0
and 1, being an average of the scaled dissimilarities calculated variable by
variable, handles missing values and allows for a user-defined weighting scheme
when averaging dissimilarities. The discussion on the weighting schemes is
sometimes misleading since it often ignores that the unweighted "standard"
setting hides an unbalanced contribution of the single variables to the overall
dissimilarity. We address this drawback following the recent idea of
introducing a weighting scheme that minimizes the differences in the
correlation between each contributing dissimilarity and the resulting weighted
Gower's dissimilarity. In particular, this note proposes different approaches
for measuring the correlation depending on the type of variables. The
performances of the proposed approaches are evaluated in simulation studies
related to classification and imputation of missing values.
- Abstract(参考訳): 近近距離法が統計学で人気を博し、統計学習において重要な役割を果たす。
最寄りの手法における重要な決定は、使用すべき変数(候補が多数存在する場合)と、ユニット間の相違を測定する方法に関するものである。
第1の決定はアプリケーションの範囲に依存し、第2の判断は変数の種類に依存します。
残念なことに、混合型変数を扱うオプションは比較的少なく、実際的なアプリケーションで頻繁に発生する状況である。
混合型変数に対する最も一般的な相似性は、ゴーワーの類似性係数の1つを補うものとして導かれる。
0 から 1 の範囲は、変数によって計算されるスケールした相違点の平均であり、欠落した値を処理し、相違点を平均化する際のユーザ定義の重み付けスキームを可能にするため、魅力的である。
重み付けスキームに関する議論は、しばしば非重み付けの「標準」設定が全体の相似性に対する単一の変数の不均衡な寄与を隠すことを無視するので、誤解を招くことがある。
この欠点は、各寄与相違性と結果の重み付け相違との相関関係を最小化する重み付けスキームを導入するという最近の考え方に続くものである。
特に本論文では,変数の種類に応じて相関を測定するための異なるアプローチを提案する。
提案手法の性能は, 欠落した値の分類と計算に関するシミュレーション研究で評価された。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Fractional Naive Bayes (FNB): non-convex optimization for a parsimonious weighted selective naive Bayes classifier [0.0]
非常に多数の入力変数を持つデータセットの分類を監督した。
本稿では,このモデルを用いたBalihoodの正規化を提案する。
提案したアルゴリズムは最適化に基づく重み付けNa"iveesスキームをもたらす。
論文 参考訳(メタデータ) (2024-09-17T11:54:14Z) - Model-independent variable selection via the rule-based variable priority [1.2771542695459488]
モデルに依存しない新しいアプローチである可変優先度(VarPro)を導入する。
VarProは、人工データを生成したり、予測エラーを評価することなく、ルールを活用する。
VarProはノイズ変数に対して一貫したフィルタリング特性を持つことを示す。
論文 参考訳(メタデータ) (2024-09-13T17:32:05Z) - Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Non-parametric Conditional Independence Testing for Mixed
Continuous-Categorical Variables: A Novel Method and Numerical Evaluation [14.993705256147189]
条件独立テスト(CIT)は機械学習において一般的なタスクである。
多くの実世界のアプリケーションは、数値変数と分類変数を含む混合型データセットを含んでいる。
分類変数を数値として扱わない従来のアプローチのバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T10:29:23Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - Machine Learning for Multi-Output Regression: When should a holistic
multivariate approach be preferred over separate univariate ones? [62.997667081978825]
ランダムフォレストのような木に基づくアンサンブルは、統計学の手法の中で近代的な古典である。
これらの手法を広範囲なシミュレーションで比較し,多変量アンサンブル技術を用いた場合の主問題に答える。
論文 参考訳(メタデータ) (2022-01-14T08:44:25Z) - On the Use of Minimum Penalties in Statistical Learning [2.1320960069210475]
本稿では,多変量回帰モデルと結果変数の関係を同時に推定する枠組みを提案する。
現状技術手法を一般化する反復アルゴリズムを解法として提案する。
我々は、提案したMinPenフレームワークを他の指数関数的なファミリー損失関数に拡張し、複数の二項応答に特異的に焦点をあてる。
論文 参考訳(メタデータ) (2021-06-09T16:15:46Z) - Distances with mixed type variables some modified Gower's coefficients [0.0]
距離関数の選択は、主に選択された変数のタイプに依存します。
混合型変数の最も一般的な距離は、ゴーワーの類似度係数の補数として導かれる。
この記事では、全体的な未重み付きGower距離に影響を与える主な欠点に対処する。
論文 参考訳(メタデータ) (2021-01-07T11:00:57Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。