論文の概要: On unsupervised projections and second order signals
- arxiv url: http://arxiv.org/abs/2204.05139v1
- Date: Mon, 11 Apr 2022 14:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 14:26:35.442544
- Title: On unsupervised projections and second order signals
- Title(参考訳): 教師なし射影と二階信号について
- Authors: Thomas Lartigue, Sach Mukherjee
- Abstract要約: 本稿では,線形射影が潜在群間の2次構造の違いを保てるかどうかを問う。
我々は2つの一般的な射影、すなわち乱射影(RP)と主成分分析(PCA)を考える。
この広い範囲のレジームにおいて、PCAはRPよりも2階信号を保持するのに効果的であることが判明し、しばしば監督投影と競合する。
- 参考スコア(独自算出の注目度): 2.0686407686198263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear projections are widely used in the analysis of high-dimensional data.
In unsupervised settings where the data harbour latent classes/clusters, the
question of whether class discriminatory signals are retained under projection
is crucial. In the case of mean differences between classes, this question has
been well studied. However, in many contemporary applications, notably in
biomedicine, group differences at the level of covariance or graphical model
structure are important. Motivated by such applications, in this paper we ask
whether linear projections can preserve differences in second order structure
between latent groups. We focus on unsupervised projections, which can be
computed without knowledge of class labels. We discuss a simple theoretical
framework to study the behaviour of such projections which we use to inform an
analysis via quasi-exhaustive enumeration. This allows us to consider the
performance, over more than a hundred thousand sets of data-generating
population parameters, of two popular projections, namely random projections
(RP) and Principal Component Analysis (PCA). Across this broad range of
regimes, PCA turns out to be more effective at retaining second order signals
than RP and is often even competitive with supervised projection. We complement
these results with fully empirical experiments showing 0-1 loss using simulated
and real data. We study also the effect of projection dimension, drawing
attention to a bias-variance trade-off in this respect. Our results show that
PCA can indeed be a suitable first-step for unsupervised analysis, including in
cases where differential covariance or graphical model structure are of
interest.
- Abstract(参考訳): 線形射影は高次元データの解析に広く用いられている。
データが潜在クラス/クラスタを格納する教師なしの設定では、投影下でクラス識別シグナルが保持されるかどうかという問題は重要である。
クラス間の平均的な違いの場合、この質問はよく研究されている。
しかし、多くの現代の応用、特に生医学において、共分散やグラフィカルモデル構造における群差が重要である。
そこで,このような応用に動機づけられて,線形射影が潜在群間の二次構造の違いを保存できるかどうかを問う。
我々は,クラスラベルを知らずに計算できる教師なし射影に注目した。
本稿では,そのような射影の挙動を研究するための単純な理論的枠組みについて検討する。
これにより、乱射影(RP)と主成分分析(PCA)という2つの一般的なプロジェクションの10万以上のデータ生成集団パラメータのパフォーマンスを考えることができる。
この広い範囲のレジームにおいて、PCAはRPよりも2階信号を保持するのに効果的であることが判明し、しばしば監督投影と競合する。
シミュレーションデータと実データを用いて,0-1の損失を示す実験を行った。
また,投影次元の影響についても検討し,バイアス分散トレードオフに注目した。
以上の結果から,PCAは,差分共分散やグラフィカルモデル構造が興味のある場合を含め,教師なし分析に適した第一歩となる可能性が示唆された。
関連論文リスト
- A Self-Organizing Clustering System for Unsupervised Distribution Shift Detection [1.0436203990235575]
本稿では,分布変化のモニタリングと検出のための連続学習フレームワークを提案する。
特に,2つのトポロジ保存マップ(自己組織化マップ)とスケール不変マップ(スケール不変マップ)の投影について検討する。
本手法は教師なしコンテキストと教師なしコンテキストの両方に適用できる。
論文 参考訳(メタデータ) (2024-04-25T14:48:29Z) - Variable Importance in High-Dimensional Settings Requires Grouping [19.095605415846187]
Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。
クラスタリングまたはいくつかの事前知識を介して統計的に変数をグループ化すると、ある程度のパワーバックが得られる。
重み付けにより拡張された手法は,高相関なグループであっても,型Iエラーを制御可能であることを示す。
論文 参考訳(メタデータ) (2023-12-18T00:21:47Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Optimal Discriminant Analysis in High-Dimensional Latent Factor Models [1.4213973379473654]
高次元分類問題において、一般的に用いられるアプローチは、まず高次元の特徴を低次元空間に射影することである。
我々は、この2段階の手順を正当化するために、隠れた低次元構造を持つ潜在変数モデルを定式化する。
観測された特徴の特定の主成分(PC)を射影とする計算効率の良い分類器を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:45:53Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Entropy-Based Uncertainty Calibration for Generalized Zero-Shot Learning [49.04790688256481]
一般化ゼロショット学習(GZSL)の目的は、目に見えないクラスと見えないクラスの両方を認識することである。
ほとんどのGZSLメソッドは、通常、見えないクラスの意味情報から視覚表現を合成することを学ぶ。
本論文では,三重項損失を持つ2重変分オートエンコーダを利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T05:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。