論文の概要: Scalable Kernel Logistic Regression with Nyström Approximation: Theoretical Analysis and Application to Discrete Choice Modelling
- arxiv url: http://arxiv.org/abs/2402.06763v2
- Date: Mon, 29 Jul 2024 16:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 22:15:57.100685
- Title: Scalable Kernel Logistic Regression with Nyström Approximation: Theoretical Analysis and Application to Discrete Choice Modelling
- Title(参考訳): Nyström近似を用いたスケーラブルカーネルロジスティック回帰:理論的解析と離散的選択モデルへの応用
- Authors: José Ángel Martín-Baos, Ricardo García-Ródenas, Luis Rodriguez-Benitez, Michel Bierlaire,
- Abstract要約: 本稿では,大規模なデータセット上でのKLR(Kernel Logistic Regression)に対するNystr"om近似を提案する。
基礎的一様サンプリング,k平均サンプリング戦略,およびレバレッジスコアを基礎とした2つの非一様抽出方法を含む,4つのランドマーク選択法が試験された。
これらの戦略の性能は,大規模トランスポートモード選択データセットを用いて評価する。
- 参考スコア(独自算出の注目度): 1.2562034805037443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of kernel-based Machine Learning (ML) techniques to discrete choice modelling using large datasets often faces challenges due to memory requirements and the considerable number of parameters involved in these models. This complexity hampers the efficient training of large-scale models. This paper addresses these problems of scalability by introducing the Nystr\"om approximation for Kernel Logistic Regression (KLR) on large datasets. The study begins by presenting a theoretical analysis in which: i) the set of KLR solutions is characterised, ii) an upper bound to the solution of KLR with Nystr\"om approximation is provided, and finally iii) a specialisation of the optimisation algorithms to Nystr\"om KLR is described. After this, the Nystr\"om KLR is computationally validated. Four landmark selection methods are tested, including basic uniform sampling, a k-means sampling strategy, and two non-uniform methods grounded in leverage scores. The performance of these strategies is evaluated using large-scale transport mode choice datasets and is compared with traditional methods such as Multinomial Logit (MNL) and contemporary ML techniques. The study also assesses the efficiency of various optimisation techniques for the proposed Nystr\"om KLR model. The performance of gradient descent, Momentum, Adam, and L-BFGS-B optimisation methods is examined on these datasets. Among these strategies, the k-means Nystr\"om KLR approach emerges as a successful solution for applying KLR to large datasets, particularly when combined with the L-BFGS-B and Adam optimisation methods. The results highlight the ability of this strategy to handle datasets exceeding 200,000 observations while maintaining robust performance.
- Abstract(参考訳): カーネルベースの機械学習(ML)技術の大規模なデータセットを使用した個別の選択モデリングへの適用は、メモリ要求とこれらのモデルに関わるかなりの数のパラメータによる課題に直面していることが多い。
この複雑さは、大規模モデルの効率的なトレーニングを妨げます。
本稿では,大規模なデータセット上でのカーネルロジスティック回帰(KLR)に対するNystr\"om approximationを導入することで,スケーラビリティの問題に対処する。
この研究は、以下の理論的な分析から始まる。
一 一連のKLR解が特徴づけられること。
二 Nystr\"om近似によるKLRの解に上界を設け、最後に
三 最適化アルゴリズムのNystr\"om KLRへの特殊化について述べる。
その後、Nystr\"om KLRが計算的に検証される。
基本的一様サンプリング,k平均サンプリング戦略,およびレバレッジスコアを基礎とした2つの非一様抽出方法を含む,4つのランドマーク選択法が試験された。
これらの戦略の性能は、大規模トランスポートモード選択データセットを用いて評価され、MNL(Multinomial Logit)や現代ML技術といった従来の手法と比較される。
また、提案したNystr\"om KLRモデルに対して、様々な最適化手法の効率性を評価する。
これらのデータセットについて,勾配降下法,Momentum,AdamおよびL-BFGS-B最適化法の性能について検討した。
これらの戦略の中で、k-means Nystr\"om KLRアプローチは、特にL-BFGS-BおよびAdam最適化手法と組み合わせた場合、大規模なデータセットにKLRを適用するための成功例として現れる。
結果は、堅牢なパフォーマンスを維持しながら、20万以上の観測データを扱うこの戦略の能力を強調している。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Learning to Select Pivotal Samples for Meta Re-weighting [12.73177872962048]
本研究では,大規模で不完全なトレーニングセットからこのようなメタサンプルを識別する方法を学習し,その後,クリーン化し,性能を最適化するために利用する。
学習フレームワークにおける2つのクラスタリング手法,Representation-based clustering method (RBC) と Gradient-based clustering method (GBC) を提案する。
論文 参考訳(メタデータ) (2023-02-09T03:04:40Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Regularization and Optimization in Model-Based Clustering [4.096453902709292]
k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。
一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
論文 参考訳(メタデータ) (2023-02-05T18:22:29Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Learning Distributionally Robust Models at Scale via Composite
Optimization [45.47760229170775]
DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。
また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。
論文 参考訳(メタデータ) (2022-03-17T20:47:42Z) - A Manifold Proximal Linear Method for Sparse Spectral Clustering with
Application to Single-Cell RNA Sequencing Data Analysis [9.643152256249884]
本稿では,SSCモデルを非滑らかかつ非客観的な最適化モデルとして広く採用している。
本研究では,従来のSSC問題を解く新しい手法(ManPL)を提案する。
提案手法の結果が得られた。
論文 参考訳(メタデータ) (2020-07-18T22:05:00Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。