論文の概要: Spectral information criterion for automatic elbow detection
- arxiv url: http://arxiv.org/abs/2308.09108v1
- Date: Thu, 17 Aug 2023 17:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 15:44:39.862654
- Title: Spectral information criterion for automatic elbow detection
- Title(参考訳): 自動肘検出のためのスペクトル情報基準
- Authors: L. Martino, R. San Millan-Castillo, E. Morgado
- Abstract要約: スペクトル情報基準(SIC)は、自動肘検出器であると考えられている。
SICは全ての可能なモデルのサブセットを提供し、しばしば可能なモデルの総数よりもはるかに小さい基数を持つ。
我々はSICをいくつかの数値実験でテストし、実際のデータセットを含む2つの実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a generalized information criterion that contains other
well-known information criteria, such as Bayesian information Criterion (BIC)
and Akaike information criterion (AIC), as special cases. Furthermore, the
proposed spectral information criterion (SIC) is also more general than the
other information criteria, e.g., since the knowledge of a likelihood function
is not strictly required. SIC extracts geometric features of the error curve
and, as a consequence, it can be considered an automatic elbow detector. SIC
provides a subset of all possible models, with a cardinality that often is much
smaller than the total number of possible models. The elements of this subset
are elbows of the error curve. A practical rule for selecting a unique model
within the sets of elbows is suggested as well. Theoretical invariance
properties of SIC are analyzed. Moreover, we test SIC in ideal scenarios where
provides always the optimal expected results. We also test SIC in several
numerical experiments: some involving synthetic data, and two experiments
involving real datasets. They are all real-world applications such as
clustering, variable selection, or polynomial order selection, to name a few.
The results show the benefits of the proposed scheme. Matlab code related to
the experiments is also provided. Possible future research lines are finally
discussed.
- Abstract(参考訳): 本稿では,ベイズ情報基準 (bic) やアカイケ情報基準 (aic) など,他のよく知られた情報基準を含む一般化情報基準を特別に導入する。
さらに、提案したスペクトル情報基準(SIC)は、例えば、確率関数の知識が厳密に要求されないため、他の情報基準よりも一般的である。
SICは誤差曲線の幾何学的特徴を抽出し、結果として自動肘検出器とみなすことができる。
SICは全ての可能なモデルのサブセットを提供し、しばしば可能なモデルの総数よりもはるかに小さい基数を持つ。
この部分集合の要素は誤差曲線の肘である。
肘のセット内でユニークなモデルを選択するための実践的なルールも提案されている。
sicの理論的不変性を分析する。
さらに、常に最適な結果を提供する理想的なシナリオでSICをテストする。
また、合成データを含むいくつかの数値実験と、実際のデータセットを含む2つの実験でSICをテストする。
これらはすべて、クラスタ化、変数選択、多項式順序選択といった現実世界のアプリケーションです。
その結果,提案手法の利点が示された。
実験に関連するMatlabコードも提供されている。
将来の研究方針が最終的に議論される。
関連論文リスト
- Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - CS4ML: A general framework for active learning with arbitrary data based
on Christoffel functions [0.7366405857677226]
回帰問題における能動的学習のための一般的なフレームワークを紹介する。
本フレームワークは, 有限個のサンプリング測度と任意の非線形近似空間に基づいて, ランダムサンプリングを考察する。
本稿では,能動的学習が望ましい科学計算の応用に焦点を当てる。
論文 参考訳(メタデータ) (2023-06-01T17:44:19Z) - Supervised Multivariate Learning with Simultaneous Feature Auto-grouping
and Dimension Reduction [7.093830786026851]
本稿では,クラスタ化低ランク学習フレームワークを提案する。
2つの合同行列正則化を課し、予測因子を構成する特徴を自動的にグループ化する。
低ランクなモデリングよりも解釈可能であり、変数選択における厳密な空間性仮定を緩和する。
論文 参考訳(メタデータ) (2021-12-17T20:11:20Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Partial Counterfactual Identification from Observational and
Experimental Data [83.798237968683]
観測データと実験データの任意の組み合わせから最適境界を近似する有効なモンテカルロアルゴリズムを開発した。
我々のアルゴリズムは、合成および実世界のデータセットに基づいて広範囲に検証されている。
論文 参考訳(メタデータ) (2021-10-12T02:21:30Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Self-Representation Based Unsupervised Exemplar Selection in a Union of
Subspaces [27.22427926657327]
表現係数の $ell_1$ ノルムによって測定されたすべてのデータポイントを最もよく再構成する部分集合を探索する新しい指数選択モデルを提案する。
データセットが独立部分空間の和から引き出されるとき、我々の方法は各部分空間から十分な数の代表を選択できる。
また,不均衡なデータに対して頑健で,大規模データに対して効率の良い,模範的なサブスペースクラスタリング手法も開発している。
論文 参考訳(メタデータ) (2020-06-07T19:43:33Z) - Double Generative Adversarial Networks for Conditional Independence
Testing [8.359770027722275]
高次元条件独立テストは統計学と機械学習の重要な構成要素である。
本稿では,GAN(Double Generative Adversarial Network)に基づく推論手法を提案する。
論文 参考訳(メタデータ) (2020-06-03T16:14:15Z) - A generalised OMP algorithm for feature selection with application to
gene expression data [1.969028842568933]
分子データに適用するには、機能選択アルゴリズムは数万の利用可能な機能にスケーラブルである必要がある。
本稿では,Orthogonal Matching Pursuit特徴選択アルゴリズムの高度にスケール可能な一般化であるgOMPを提案する。
論文 参考訳(メタデータ) (2020-04-01T08:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。