論文の概要: Improving Group Lasso for high-dimensional categorical data
- arxiv url: http://arxiv.org/abs/2210.14021v2
- Date: Thu, 27 Oct 2022 05:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:04:41.480355
- Title: Improving Group Lasso for high-dimensional categorical data
- Title(参考訳): 高次元分類データのためのグループラッソの改良
- Authors: Szymon Nowakowski, Piotr Pokarowski, Wojciech Rejchel
- Abstract要約: 群ラッソ(英: Group Lasso)は、連続変数または分類変数を選択するためのよく知られた効率的なアルゴリズムである。
グループラッソのスパース解を得るための2段階の手順を提案する。
本手法は,予測精度やモデル次元に関して,技術アルゴリズムの状態よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.90238471756546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse modelling or model selection with categorical data is challenging even
for a moderate number of variables, because one parameter is roughly needed to
encode one category or level. The Group Lasso is a well known efficient
algorithm for selection continuous or categorical variables, but all estimates
related to a selected factor usually differ. Therefore, a fitted model may not
be sparse, which makes the model interpretation difficult. To obtain a sparse
solution of the Group Lasso we propose the following two-step procedure: first,
we reduce data dimensionality using the Group Lasso; then to choose the final
model we use an information criterion on a small family of models prepared by
clustering levels of individual factors. We investigate selection correctness
of the algorithm in a sparse high-dimensional scenario. We also test our method
on synthetic as well as real datasets and show that it performs better than the
state of the art algorithms with respect to the prediction accuracy or model
dimension.
- Abstract(参考訳): 1つのパラメータが1つのカテゴリやレベルを大まかにエンコードする必要があるため、中程度の変数でも、カテゴリデータによるスパースモデリングやモデル選択は難しい。
群lassoは連続変数またはカテゴリ変数を選択するためのよく知られた効率的なアルゴリズムであるが、選択された因子に関する全ての推定は通常異なる。
したがって、適合したモデルがスパースしない場合があるため、モデル解釈が困難になる。
グループラッソのスパース解を得るためには、まず、グループラッソを用いてデータ次元を減らし、次に、各因子のクラスタリングレベルによって準備された小さなモデルの情報基準を用いて最終モデルを選択する。
スパース高次元シナリオにおけるアルゴリズムの選択精度について検討する。
また,本手法を実際のデータセットと合成で検証し,予測精度やモデル次元に関して,技術アルゴリズムの状態よりも優れた性能を示すことを示す。
関連論文リスト
- An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Random Models for Fuzzy Clustering Similarity Measures [0.0]
Adjusted Rand Index (ARI) は、ハードクラスタリングを比較するために広く使われている手法である。
本稿では,ハードクラスタリングとファジィクラスタリングの両方に対して直感的で説明可能な3つのランダムモデルを用いて,ARIを計算するための単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-16T00:07:04Z) - A Consistent and Scalable Algorithm for Best Subset Selection in Single
Index Models [1.3236116985407258]
高次元モデルにおける最良の部分集合選択は、計算的に難解であることが知られている。
我々は,高次元SIMにおける最良部分選択のための,証明可能な最初の拡張性アルゴリズムを提案する。
アルゴリズムは部分集合選択の一貫性を保ち、高い確率でオラクル特性を持つ。
論文 参考訳(メタデータ) (2023-09-12T13:48:06Z) - Best-Subset Selection in Generalized Linear Models: A Fast and
Consistent Algorithm via Splicing Technique [0.6338047104436422]
ベストサブセットセクションは、このタイプの問題の聖杯として広く見なされている。
軽度条件下での最適部分集合回復のためのアルゴリズムを提案し,提案した。
我々の実装は、一般的な変数選択ツールキットと比較して約4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-08-01T03:11:31Z) - A model-free feature selection technique of feature screening and random
forest based recursive feature elimination [0.0]
質量特徴を持つ超高次元データのモデルフリー特徴選択法を提案する。
提案手法は選択整合性を示し, 弱正則条件下では$L$整合性を示す。
論文 参考訳(メタデータ) (2023-02-15T03:39:16Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Which is the best model for my data? [0.0]
提案されたメタ学習アプローチは、機械学習に依存し、4つの主要なステップを含む。
本稿では,正と負の測度を含む集約測度値において,情報消去の問題に対処する62のメタ特徴の集合について述べる。
我々のメタ学習アプローチは、合成データセットの91%と実世界のデータセットの87%に対して、最適なモデルを正確に予測できることを示します。
論文 参考訳(メタデータ) (2022-10-26T13:15:43Z) - A linearized framework and a new benchmark for model selection for
fine-tuning [112.20527122513668]
異なるドメインで事前訓練されたモデルの集合からの微調整は、低データ体制におけるテストの精度を向上させる技術として現れている。
モデル選択のための2つの新しいベースライン - Label-Gradient と Label-Feature correlation を導入する。
我々のベンチマークでは、微調整されたイメージネットモデルと比較して、モデル動物園での精度向上が強調されている。
論文 参考訳(メタデータ) (2021-01-29T21:57:15Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。