論文の概要: Kernel Representation and Similarity Measure for Incomplete Data
- arxiv url: http://arxiv.org/abs/2510.13352v1
- Date: Wed, 15 Oct 2025 09:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.602688
- Title: Kernel Representation and Similarity Measure for Incomplete Data
- Title(参考訳): 不完全データのカーネル表現と類似度測定
- Authors: Yang Cao, Sikun Yang, Kai He, Wenjun Ma, Ming Liu, Yujiu Yang, Jian Weng,
- Abstract要約: 不完全データの類似性を測定することは、Webマイニング、レコメンデーションシステム、ユーザー行動分析において基本的な課題である。
従来のアプローチでは、不完全なデータを破棄するか、事前処理のステップとして計算を実行するかのいずれかであり、情報損失と類似性のバイアスが生じる。
本稿では,カーネルの特徴空間における不完全データ間の類似性を,元の空間における明示的な計算なしで直接計算する,新しい類似度尺度を提案する。
- 参考スコア(独自算出の注目度): 55.62595187178638
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Measuring similarity between incomplete data is a fundamental challenge in web mining, recommendation systems, and user behavior analysis. Traditional approaches either discard incomplete data or perform imputation as a preprocessing step, leading to information loss and biased similarity estimates. This paper presents the proximity kernel, a new similarity measure that directly computes similarity between incomplete data in kernel feature space without explicit imputation in the original space. The proposed method introduces data-dependent binning combined with proximity assignment to project data into a high-dimensional sparse representation that adapts to local density variations. For missing value handling, we propose a cascading fallback strategy to estimate missing feature distributions. We conduct clustering tasks on the proposed kernel representation across 12 real world incomplete datasets, demonstrating superior performance compared to existing methods while maintaining linear time complexity. All the code are available at https://anonymous.4open.science/r/proximity-kernel-2289.
- Abstract(参考訳): 不完全データの類似性を測定することは、Webマイニング、レコメンデーションシステム、ユーザー行動分析において基本的な課題である。
従来のアプローチでは、不完全なデータを破棄するか、事前処理のステップとして計算を実行するかのいずれかであり、情報損失と類似性のバイアスが生じる。
本稿では,カーネル特徴空間における不完全データ間の類似性を,元の空間における明示的な計算なしで直接計算する,新しい類似度尺度である近接カーネルを提案する。
提案手法では, 局所密度変動に適応する高次元スパース表現に, 近接割当と近接割当を組み合わせたデータ依存型ビンニングを導入する。
そこで本研究では,欠落した特徴分布を推定するカスケードフォールバック戦略を提案する。
提案するカーネル表現のクラスタリングタスクは,12の実世界の不完全データセットにまたがって実施し,線形時間複雑性を維持しながら,既存の手法と比較して優れた性能を示す。
すべてのコードはhttps://anonymous.4open.science/r/proximity-kernel-2289で公開されている。
関連論文リスト
- HI-PMK: A Data-Dependent Kernel for Incomplete Heterogeneous Data Representation [1.945017258192898]
HI-PMKは、新しいデータ依存型表現学習アプローチであり、命令処理の必要性を排除している。
15以上のベンチマークデータセットの実験では、HI-PMKが従来の命令ベースのパイプラインとカーネルメソッドを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-01-08T06:18:32Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Faithful Density-Peaks Clustering via Matrix Computations on MPI Parallelization System [7.594123537718585]
密度ピーククラスタリング(DP)は任意の形状のクラスタを検出し、非ユークリッド空間データをクラスタリングする能力を持つ。
本稿では,2種類のベクトル状距離行列と逆前ノードファイリングポリシを併用した忠実かつ並列なDP法を提案する。
本手法は,コミュニティ検出などの非ユークリッドデータをクラスタリングすると同時に,大規模ユークリッドデータをクラスタリングする場合の精度において,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-06-18T06:05:45Z) - Data Imputation by Pursuing Better Classification: A Supervised Kernel-Based Method [33.56136381435839]
本稿では, 監視情報を効果的に活用し, 欠落したデータを分類する手法を提案する。
我々のアルゴリズムは、データの60%以上が欠落している場合、他の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-05-13T14:44:02Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Kernel k-Means, By All Means: Algorithms and Strong Consistency [21.013169939337583]
Kernel $k$クラスタリングは、非線形データの教師なし学習のための強力なツールである。
本稿では,最適化された局所解に対処するための一般的な手法を応用した結果を一般化する。
我々のアルゴリズムは、この非線形分離問題をよりよく解くために、Magricalization-minimization (MM) を利用している。
論文 参考訳(メタデータ) (2020-11-12T16:07:18Z) - Learning a Deep Part-based Representation by Preserving Data
Distribution [21.13421736154956]
教師なし次元減少は、高次元データ認識問題において一般的に用いられる技法の1つである。
本稿では,データ分布を保存することにより,深部部分に基づく表現を学習し,新しいアルゴリズムを分散保存ネットワーク埋め込みと呼ぶ。
実世界のデータセットにおける実験結果から,提案アルゴリズムはクラスタ精度とAMIの点で優れた性能を示した。
論文 参考訳(メタデータ) (2020-09-17T12:49:36Z) - Federated Doubly Stochastic Kernel Learning for Vertically Partitioned
Data [93.76907759950608]
本稿では,垂直分割データに対する2倍のカーネル学習アルゴリズムを提案する。
本稿では,FDSKLがカーネルを扱う場合,最先端のフェデレーション学習手法よりもはるかに高速であることを示す。
論文 参考訳(メタデータ) (2020-08-14T05:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。