論文の概要: Unobserved classes and extra variables in high-dimensional discriminant
analysis
- arxiv url: http://arxiv.org/abs/2102.01982v1
- Date: Wed, 3 Feb 2021 10:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 19:12:17.491851
- Title: Unobserved classes and extra variables in high-dimensional discriminant
analysis
- Title(参考訳): 高次元判別分析における未観測クラスと余剰変数
- Authors: Michael Fop, Pierre-Alexandre Mattei, Charles Bouveyron, Thomas
Brendan Murphy
- Abstract要約: 教師付き分類問題では、テストセットは学習フェーズで観察されていないクラスに属するデータポイントを含むことができる。
モデルに基づく判別手法D-AMDA(Dimension-Adaptive Mixture Discriminant Analysis)を提案する。
観測されていないクラスを検出し、次元の増大に適応することができる。
- 参考スコア(独自算出の注目度): 9.467899386491204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In supervised classification problems, the test set may contain data points
belonging to classes not observed in the learning phase. Moreover, the same
units in the test data may be measured on a set of additional variables
recorded at a subsequent stage with respect to when the learning sample was
collected. In this situation, the classifier built in the learning phase needs
to adapt to handle potential unknown classes and the extra dimensions. We
introduce a model-based discriminant approach, Dimension-Adaptive Mixture
Discriminant Analysis (D-AMDA), which can detect unobserved classes and adapt
to the increasing dimensionality. Model estimation is carried out via a full
inductive approach based on an EM algorithm. The method is then embedded in a
more general framework for adaptive variable selection and classification
suitable for data of large dimensions. A simulation study and an artificial
experiment related to classification of adulterated honey samples are used to
validate the ability of the proposed framework to deal with complex situations.
- Abstract(参考訳): 教師付き分類問題では、テストセットは学習段階では観察されないクラスに属するデータポイントを含むことができる。
さらに、学習サンプルが収集された時点に関して、テストデータの同じ単位を、その後の段階で記録された追加変数のセットで測定することができる。
このような状況では、学習段階に組み込まれた分類器は、潜在的な未知のクラスと余分な次元を扱うために適応する必要がある。
D-AMDA(Dimension-Adaptive Mixture Discriminant Analysis)という,モデルに基づく識別的手法を提案する。
モデル推定は、EMアルゴリズムに基づく完全な帰納的アプローチによって行われる。
この方法は、大次元のデータに適した適応変数選択と分類のためのより一般的な枠組みに組み込まれる。
シミュレーション研究と成熟ハチミツサンプルの分類に関連する人工実験を使用して、提案されたフレームワークが複雑な状況に対処する能力を検証する。
関連論文リスト
- Adaptive Transfer Clustering: A Unified Framework [2.3144964550307496]
本稿では,未知の相違点が存在する場合の共通性を自動的に活用するアダプティブ・トランスファー・クラスタリング(ATC)アルゴリズムを提案する。
これはガウス混合モデル、ブロックモデル、潜在クラスモデルを含む幅広い統計モデルに適用される。
論文 参考訳(メタデータ) (2024-10-28T17:57:06Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - A Learning Based Hypothesis Test for Harmful Covariate Shift [3.1406146587437904]
リスクの高いドメインの機械学習システムは、アウト・オブ・ディストリビューションテストの例で予測をすべきでないことを特定する必要がある。
本研究では、トレーニングデータに同意し、テストデータに同意するように訓練された分類器のアンサンブル間の不一致を利用して、モデルがデプロイ設定から削除されるかどうかを判断する。
論文 参考訳(メタデータ) (2022-12-06T04:15:24Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Linear Discriminant Analysis with High-dimensional Mixed Variables [10.774094462083843]
本稿では,混合変数を用いた高次元観測の分類手法を提案する。
データを指数関数的に多くのセルに分割するという課題を克服する。
推定精度と誤分類率に関する結果が確立される。
論文 参考訳(メタデータ) (2021-12-14T03:57:56Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。