論文の概要: A general framework for implementing distances for categorical variables
- arxiv url: http://arxiv.org/abs/2301.02190v1
- Date: Wed, 4 Jan 2023 13:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:50:59.896722
- Title: A general framework for implementing distances for categorical variables
- Title(参考訳): カテゴリー変数に対する距離実装のための一般的な枠組み
- Authors: Michel van de Velden and Alfonso Iodice D'Enza and Angelos Markos and
Carlo Cavicchia
- Abstract要約: 本稿では,分類変数の観測点間の距離を効率よく,透過的に実装できる汎用フレームワークを提案する。
我々のフレームワークは、非常に自然に新しい距離定式化を導入し、フレキシブル、ケース、データ固有の距離定義の実装を可能にします。
教師付き分類設定では、このフレームワークは応答変数と予測変数の関連性を含む距離を構築するのに使うことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The degree to which subjects differ from each other with respect to certain
properties measured by a set of variables, plays an important role in many
statistical methods. For example, classification, clustering, and data
visualization methods all require a quantification of differences in the
observed values. We can refer to the quantification of such differences, as
distance. An appropriate definition of a distance depends on the nature of the
data and the problem at hand. For distances between numerical variables, there
exist many definitions that depend on the size of the observed differences. For
categorical data, the definition of a distance is more complex, as there is no
straightforward quantification of the size of the observed differences.
Consequently, many proposals exist that can be used to measure differences
based on categorical variables. In this paper, we introduce a general framework
that allows for an efficient and transparent implementation of distances
between observations on categorical variables. We show that several existing
distances can be incorporated into the framework. Moreover, our framework quite
naturally leads to the introduction of new distance formulations and allows for
the implementation of flexible, case and data specific distance definitions.
Furthermore, in a supervised classification setting, the framework can be used
to construct distances that incorporate the association between the response
and predictor variables and hence improve the performance of distance-based
classifiers.
- Abstract(参考訳): 変数の集合によって測定される特定の性質に関して対象が互いに異なる程度は、多くの統計手法において重要な役割を果たす。
例えば、分類、クラスタリング、データ可視化といった方法は、すべて観測値の違いを定量化する必要がある。
このような差異の定量化を距離と呼ぶことができる。
距離の適切な定義は、データの性質と目の前の問題に依存する。
数値変数間の距離については、観測された差の大きさに依存する多くの定義が存在する。
カテゴリーデータでは、観測された差の大きさの直接的な定量化がないため、距離の定義はより複雑である。
その結果、分類変数に基づいて差を測定するために使用できる多くの提案が存在する。
本稿では,分類変数の観測点間の距離を効率よく,透過的に実装できる汎用フレームワークを提案する。
いくつかの既存の距離をフレームワークに組み込むことができることを示す。
さらに,このフレームワークは,新たな距離定式化の導入を極めて自然に導き,柔軟性,ケース,データ固有の距離定義の実装を可能にしている。
さらに、教師付き分類設定では、応答変数と予測変数の関係を組み込んだ距離を構築し、したがって距離に基づく分類器の性能を向上させることができる。
関連論文リスト
- Graph-based Virtual Sensing from Sparse and Partial Multivariate
Observations [22.567497617912046]
このような関係を利用してグラフに基づく新しい手法を導入し、GgNetというグラフ深層学習アーキテクチャを設計し、そのフレームワークを実装した。
提案手法は,変数間の依存関係や位置の学習に使用されるネストグラフ構造上の情報伝達に依存する。
GgNetは様々な仮想センシングシナリオで広く評価されており、最先端技術と比較して高い再現精度を示している。
論文 参考訳(メタデータ) (2024-02-19T23:22:30Z) - Gower's similarity coefficients with automatic weight selection [0.0]
混合型変数に対する最も一般的な相似性は、ゴーワーの類似性係数の1つを補うものとして導かれる。
重み付けスキームに関する議論は、しばしば非重み付けの「標準」設定が全体の相似性に対する単一の変数の不均衡な寄与を隠すことを無視するので、誤解を招くことがある。
この欠点は、各寄与相違性と結果の重み付け相違との相関関係を最小化する重み付けスキームを導入するという最近の考え方に倣って解決される。
論文 参考訳(メタデータ) (2024-01-30T14:21:56Z) - Non-parametric Conditional Independence Testing for Mixed
Continuous-Categorical Variables: A Novel Method and Numerical Evaluation [14.993705256147189]
条件独立テスト(CIT)は機械学習において一般的なタスクである。
多くの実世界のアプリケーションは、数値変数と分類変数を含む混合型データセットを含んでいる。
分類変数を数値として扱わない従来のアプローチのバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T10:29:23Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Disentanglement Analysis with Partial Information Decomposition [31.56299813238937]
不整合表現は、異なる生成因子を個別にキャプチャする複数のランダム変数にデータをマッピングすることで、プロセスを逆転させることを目的としている。
現在の遠絡測定値は、各生成因子によって条件付けられた各変数の絶対偏差、分散、エントロピーなどの濃度を測定するように設計されている。
本研究では,2つ以上の変数間の情報共有を評価するために部分情報分解フレームワークを使用し,新しいアンタングル化指標を含むフレームワークを構築する。
論文 参考訳(メタデータ) (2021-08-31T11:09:40Z) - Ranking the information content of distance measures [61.754016309475745]
2つの異なる距離測度を用いて保持する相対的情報を評価する統計的テストを導入する。
これにより、候補者のプールから最も情報に富んだ距離を測定することができる。
論文 参考訳(メタデータ) (2021-04-30T15:57:57Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。