論文の概要: Scalable Kernel Logistic Regression with Nyström Approximation: Theoretical Analysis and Application to Discrete Choice Modelling
- arxiv url: http://arxiv.org/abs/2402.06763v2
- Date: Mon, 29 Jul 2024 16:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 22:15:57.100685
- Title: Scalable Kernel Logistic Regression with Nyström Approximation: Theoretical Analysis and Application to Discrete Choice Modelling
- Title(参考訳): Nyström近似を用いたスケーラブルカーネルロジスティック回帰:理論的解析と離散的選択モデルへの応用
- Authors: José Ángel Martín-Baos, Ricardo García-Ródenas, Luis Rodriguez-Benitez, Michel Bierlaire,
- Abstract要約: 本稿では,大規模なデータセット上でのKLR(Kernel Logistic Regression)に対するNystr"om近似を提案する。
基礎的一様サンプリング,k平均サンプリング戦略,およびレバレッジスコアを基礎とした2つの非一様抽出方法を含む,4つのランドマーク選択法が試験された。
これらの戦略の性能は,大規模トランスポートモード選択データセットを用いて評価する。
- 参考スコア(独自算出の注目度): 1.2562034805037443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of kernel-based Machine Learning (ML) techniques to discrete choice modelling using large datasets often faces challenges due to memory requirements and the considerable number of parameters involved in these models. This complexity hampers the efficient training of large-scale models. This paper addresses these problems of scalability by introducing the Nystr\"om approximation for Kernel Logistic Regression (KLR) on large datasets. The study begins by presenting a theoretical analysis in which: i) the set of KLR solutions is characterised, ii) an upper bound to the solution of KLR with Nystr\"om approximation is provided, and finally iii) a specialisation of the optimisation algorithms to Nystr\"om KLR is described. After this, the Nystr\"om KLR is computationally validated. Four landmark selection methods are tested, including basic uniform sampling, a k-means sampling strategy, and two non-uniform methods grounded in leverage scores. The performance of these strategies is evaluated using large-scale transport mode choice datasets and is compared with traditional methods such as Multinomial Logit (MNL) and contemporary ML techniques. The study also assesses the efficiency of various optimisation techniques for the proposed Nystr\"om KLR model. The performance of gradient descent, Momentum, Adam, and L-BFGS-B optimisation methods is examined on these datasets. Among these strategies, the k-means Nystr\"om KLR approach emerges as a successful solution for applying KLR to large datasets, particularly when combined with the L-BFGS-B and Adam optimisation methods. The results highlight the ability of this strategy to handle datasets exceeding 200,000 observations while maintaining robust performance.
- Abstract(参考訳): カーネルベースの機械学習(ML)技術の大規模なデータセットを使用した個別の選択モデリングへの適用は、メモリ要求とこれらのモデルに関わるかなりの数のパラメータによる課題に直面していることが多い。
この複雑さは、大規模モデルの効率的なトレーニングを妨げます。
本稿では,大規模なデータセット上でのカーネルロジスティック回帰(KLR)に対するNystr\"om approximationを導入することで,スケーラビリティの問題に対処する。
この研究は、以下の理論的な分析から始まる。
一 一連のKLR解が特徴づけられること。
二 Nystr\"om近似によるKLRの解に上界を設け、最後に
三 最適化アルゴリズムのNystr\"om KLRへの特殊化について述べる。
その後、Nystr\"om KLRが計算的に検証される。
基本的一様サンプリング,k平均サンプリング戦略,およびレバレッジスコアを基礎とした2つの非一様抽出方法を含む,4つのランドマーク選択法が試験された。
これらの戦略の性能は、大規模トランスポートモード選択データセットを用いて評価され、MNL(Multinomial Logit)や現代ML技術といった従来の手法と比較される。
また、提案したNystr\"om KLRモデルに対して、様々な最適化手法の効率性を評価する。
これらのデータセットについて,勾配降下法,Momentum,AdamおよびL-BFGS-B最適化法の性能について検討した。
これらの戦略の中で、k-means Nystr\"om KLRアプローチは、特にL-BFGS-BおよびAdam最適化手法と組み合わせた場合、大規模なデータセットにKLRを適用するための成功例として現れる。
結果は、堅牢なパフォーマンスを維持しながら、20万以上の観測データを扱うこの戦略の能力を強調している。
関連論文リスト
- Constructing Gaussian Processes via Samplets [0.0]
最適収束率を持つモデルを特定するために,最近の収束結果について検討する。
本稿では,ガウス過程を効率的に構築・訓練するためのサンプルベースアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-11T18:01:03Z) - On Sampling Strategies for Spectral Model Sharding [7.185534285278903]
本研究では,そのようなシャーディングのための2つのサンプリング戦略を提案する。
第1は元の重みの偏りのない推定器を生成し、第2は正方形の近似誤差を最小限にすることを目的としている。
これら2つの手法が,様々な一般的なデータセットの性能向上につながることを実証した。
論文 参考訳(メタデータ) (2024-10-31T16:37:25Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Learning to Select Pivotal Samples for Meta Re-weighting [12.73177872962048]
本研究では,大規模で不完全なトレーニングセットからこのようなメタサンプルを識別する方法を学習し,その後,クリーン化し,性能を最適化するために利用する。
学習フレームワークにおける2つのクラスタリング手法,Representation-based clustering method (RBC) と Gradient-based clustering method (GBC) を提案する。
論文 参考訳(メタデータ) (2023-02-09T03:04:40Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - A Manifold Proximal Linear Method for Sparse Spectral Clustering with
Application to Single-Cell RNA Sequencing Data Analysis [9.643152256249884]
本稿では,SSCモデルを非滑らかかつ非客観的な最適化モデルとして広く採用している。
本研究では,従来のSSC問題を解く新しい手法(ManPL)を提案する。
提案手法の結果が得られた。
論文 参考訳(メタデータ) (2020-07-18T22:05:00Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。