論文の概要: Spectral Self-supervised Feature Selection
- arxiv url: http://arxiv.org/abs/2407.09061v1
- Date: Fri, 12 Jul 2024 07:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:17:04.554809
- Title: Spectral Self-supervised Feature Selection
- Title(参考訳): スペクトル自己監督的特徴選択
- Authors: Daniel Segal, Ofir Lindenbaum, Ariel Jaffe,
- Abstract要約: 教師なし特徴選択のための自己教師付きグラフベースアプローチを提案する。
提案手法のコアは,グラフラプラシアンの固有ベクトルに単純な処理ステップを適用することで,ロバストな擬似ラベルを計算することである。
我々のアプローチは、外れ値や複雑な部分構造の存在など、困難なシナリオに対して堅牢であることが示されている。
- 参考スコア(独自算出の注目度): 7.052728135831165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Choosing a meaningful subset of features from high-dimensional observations in unsupervised settings can greatly enhance the accuracy of downstream analysis, such as clustering or dimensionality reduction, and provide valuable insights into the sources of heterogeneity in a given dataset. In this paper, we propose a self-supervised graph-based approach for unsupervised feature selection. Our method's core involves computing robust pseudo-labels by applying simple processing steps to the graph Laplacian's eigenvectors. The subset of eigenvectors used for computing pseudo-labels is chosen based on a model stability criterion. We then measure the importance of each feature by training a surrogate model to predict the pseudo-labels from the observations. Our approach is shown to be robust to challenging scenarios, such as the presence of outliers and complex substructures. We demonstrate the effectiveness of our method through experiments on real-world datasets, showing its robustness across multiple domains, particularly its effectiveness on biological datasets.
- Abstract(参考訳): 教師なし環境での高次元観測から有意義な特徴のサブセットを選択することは、クラスタリングや次元減少といった下流分析の精度を大幅に向上させ、与えられたデータセットの不均一性の原因に関する貴重な洞察を提供する。
本稿では,教師なし特徴選択のための自己教師付きグラフベースアプローチを提案する。
提案手法のコアは,グラフラプラシアンの固有ベクトルに単純な処理ステップを適用することで,ロバストな擬似ラベルを計算することである。
擬似ラベル計算に使用される固有ベクトルのサブセットは、モデル安定性基準に基づいて選択される。
次に,観測結果から擬似ラベルを予測するために代理モデルを訓練することにより,各特徴の重要性を測定する。
我々のアプローチは、外れ値や複雑な部分構造の存在など、困難なシナリオに対して堅牢であることが示されている。
実世界のデータセットを用いた実験を通して,本手法の有効性を実証し,その堅牢性,特に生物学的データセットにおける有効性を示す。
関連論文リスト
- Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Pseudo-label Based Domain Adaptation for Zero-Shot Text Steganalysis [10.587545153412314]
擬似ラベルとドメイン適応(教師なし学習)に基づくドメイン間ステゴテキスト分析法(PDTS)
我々は、ラベル付きソースドメインデータを用いてモデルをトレーニングし、自己学習を通じてラベルなしのターゲットドメインデータに対して擬似ラベルを用いて、ターゲットドメインデータ分布に適応する。
実験結果から,本手法はゼロショットテキストステガナリシスタスクにおいて良好に動作し,対象領域にラベル付きデータがない場合でも高い検出精度を実現し,現在のゼロショットテキストステガナリシス手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-01T04:19:07Z) - Feature graphs for interpretable unsupervised tree ensembles: centrality, interaction, and application in disease subtyping [0.24578723416255746]
特徴の選択は、モデルの解釈可能性を高める上で重要な役割を担います。
決定木を集約することで得られる精度は、解釈可能性の犠牲となる。
この研究では、教師なしランダムな森林から特徴グラフを構築するための新しい手法を紹介した。
論文 参考訳(メタデータ) (2024-04-27T12:47:37Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Low-rank Dictionary Learning for Unsupervised Feature Selection [11.634317251468968]
低ランク表現に辞書学習のアイデアを適用することで、教師なしの新たな特徴選択手法を導入する。
非教師付き特徴選択のための統一目的関数は、$ell_2,1$-norm正規化によってスパースな方法で提案される。
実験の結果,提案手法は最先端のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-21T13:39:10Z) - Incremental Semi-Supervised Learning Through Optimal Transport [0.0]
本研究では, 半指導的学習のための2成分エッジ重み付きグラフを用いた新しいアプローチを提案する。
提案手法は,ラベル付きデータポイントと非ラベル付きデータポイントで定義された経験的測度間の規則化された最適輸送を用いて,最適輸送計画から親和性行列を得る。
論文 参考訳(メタデータ) (2021-03-22T15:31:53Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。