論文の概要: High-dimensional Semi-supervised Classification via the Fermat Distance
- arxiv url: http://arxiv.org/abs/2604.23573v1
- Date: Sun, 26 Apr 2026 07:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.43915
- Title: High-dimensional Semi-supervised Classification via the Fermat Distance
- Title(参考訳): ファーマ距離を用いた高次元半教師付き分類
- Authors: Ruoxu Tan, Yiming Zang,
- Abstract要約: ラベル付きデータが大量だがラベル付きデータが限られている半教師付き分類は、機械学習アプリケーションでしばしば発生する。
重み付き$k$-nearest neighbors(NN)分類器と多次元スケーリング(MDS)誘導分類器を提案する。
我々は,Fermat距離の推定から生じる誤差が,プールしたサンプルサイズとともに指数関数的に減衰することを示し,ラベル付きデータの有用性を明示的に定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised classification, where unlabeled data are massive but labeled data are limited, often arises in machine learning applications. We address this challenge under high-dimensional data by leveraging the manifold and cluster assumptions. Based on the Fermat distance, a density-sensitive metric that naturally encodes the cluster assumption, we propose the weighted $k$-nearest neighbors (NN) classifier and multidimensional scaling (MDS)-induced classifiers. The use of MDS with a large target dimension allows the effective application of linear classifiers to complex manifold data. Theoretically, we derive a sharp lower bound for the expected excess risk within clusters and prove that the weighted $k$-NN classifier utilizing the true Fermat distance is minimax optimal. Furthermore, we explicitly quantify the utility of unlabeled data by showing that the error arising from estimating the Fermat distance decays exponentially with the pooled sample size. Such a rate is much faster than the related rates in the literature. Extensive experiments on synthetic and real datasets demonstrate competitive or superior performance of our approaches compared to state-of-the-art graph-based semi-supervised classifiers.
- Abstract(参考訳): ラベル付きデータが大量だがラベル付きデータが限られている半教師付き分類は、機械学習アプリケーションでしばしば発生する。
多様体とクラスタの仮定を利用して,高次元データによるこの問題に対処する。
クラスタ仮定を自然にエンコードする密度感受性計量であるFermat距離に基づいて、重み付き$k$-nearest neighbors(NN)分類器とMDS誘発分類器を提案する。
大きな対象次元を持つMDSを使用することで、複素多様体データへの線形分類器の有効利用が可能になる。
理論的には、クラスタ内の予測過剰リスクに対する鋭く低い境界を導出し、真のフェルマー距離を利用する重み付き$k$-NN分類器が極小値であることを示す。
さらに,Fermat距離の推定から生じる誤差が,プールしたサンプルサイズと指数関数的に減少することを示し,ラベル付きデータの有用性を明示的に定量化する。
このようなレートは、文学における関連するレートよりもはるかに高速である。
合成データセットと実データセットの大規模な実験は、最先端のグラフベースの半教師付き分類器と比較して、我々のアプローチの競争力や優れた性能を示している。
関連論文リスト
- When and How Unlabeled Data Provably Improve In-Context Learning [31.201385551730926]
教師なしの学習は、デモが欠落したり、誤ったラベルがあったりしても効果的である。
我々は,sum_ige 0 a_i (Xtop X)iXtop y$ と $X$ と $y$ の機能と部分観測ラベルを暗黙的に構築することで,ラベル付きデータを効果的に活用できることを示す。
論文 参考訳(メタデータ) (2025-06-18T10:01:17Z) - The Exploration of Error Bounds in Classification with Noisy Labels [7.657250843344973]
本稿では,ディープラーニングフレームワークにおけるノイズラベルによる分類問題に対する過大なリスクの誤差境界に着目した。
過大なリスクに対して誤差境界を導出し、それを統計的誤差と近似誤差に分解する。
低次元多様体仮説の下では、高次元入力空間の影響を軽減するために近似誤差をさらに洗練する。
論文 参考訳(メタデータ) (2025-01-25T10:06:50Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Beyond Labels: Advancing Cluster Analysis with the Entropy of Distance
Distribution (EDD) [0.0]
距離分布のエントロピー(Entropy of Distance Distribution、EDD)は、ラベルフリークラスタリング分析におけるパラダイムシフトである。
本手法ではシャノン情報エントロピーを用いて,データセット内の距離分布の「ピーク性」や「平坦性」を定量化する。
EDDのポテンシャルは、従来のクラスタリング分析を超えて、複雑なデータ構造を解き放つための堅牢でスケーラブルなツールを提供する。
論文 参考訳(メタデータ) (2023-11-28T09:22:17Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。