論文の概要: High-dimensional prediction for count response via sparse exponential weights
- arxiv url: http://arxiv.org/abs/2410.15381v1
- Date: Sun, 20 Oct 2024 12:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:06.736530
- Title: High-dimensional prediction for count response via sparse exponential weights
- Title(参考訳): スパース指数重みによるカウント応答の高次元予測
- Authors: The Tien Mai,
- Abstract要約: 本稿では,高次元カウントデータ予測のための新しい確率的機械学習フレームワークを提案する。
重要な貢献は、データ予測をカウントするために調整された新しいリスク尺度であり、PAC-ベイズ境界を用いた予測リスクの理論的な保証である。
以上の結果から,非漸近性オラクルの不等式や,空間性に関する事前知識を伴わない速度-最適予測誤差が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Count data is prevalent in various fields like ecology, medical research, and genomics. In high-dimensional settings, where the number of features exceeds the sample size, feature selection becomes essential. While frequentist methods like Lasso have advanced in handling high-dimensional count data, Bayesian approaches remain under-explored with no theoretical results on prediction performance. This paper introduces a novel probabilistic machine learning framework for high-dimensional count data prediction. We propose a pseudo-Bayesian method that integrates a scaled Student prior to promote sparsity and uses an exponential weight aggregation procedure. A key contribution is a novel risk measure tailored to count data prediction, with theoretical guarantees for prediction risk using PAC-Bayesian bounds. Our results include non-asymptotic oracle inequalities, demonstrating rate-optimal prediction error without prior knowledge of sparsity. We implement this approach efficiently using Langevin Monte Carlo method. Simulations and a real data application highlight the strong performance of our method compared to the Lasso in various settings.
- Abstract(参考訳): カウントデータは、生態学、医学研究、ゲノム学など様々な分野で広く使われている。
特徴数がサンプルサイズを超える高次元設定では、特徴選択が必須となる。
ラッソのような頻繁な手法は高次元のカウントデータを扱うのに進歩してきたが、ベイジアンアプローチは、予測性能に関する理論的結果が得られず、未探索のままである。
本稿では,高次元カウントデータ予測のための新しい確率的機械学習フレームワークを提案する。
本稿では,空間性向上に先立ってスケールした学生を統合する疑似ベイジアン手法を提案し,指数重み付け法を用いる。
重要な貢献は、データ予測をカウントするために調整された新しいリスク尺度であり、PAC-ベイズ境界を用いた予測リスクの理論的な保証である。
以上の結果から,非漸近性オラクルの不等式や,空間性に関する事前知識を伴わない速度-最適予測誤差が示唆された。
このアプローチを,Langevin Monte Carlo 法を用いて効率的に実装する。
シミュレーションと実データアプリケーションでは,様々な環境でのLassoと比較して,我々の手法の強みを強調している。
関連論文リスト
- A sparse PAC-Bayesian approach for high-dimensional quantile prediction [0.0]
本稿では,高次元量子化予測のための確率論的機械学習手法を提案する。
擬似ベイズ的フレームワークとスケールした学生tとランゲヴィン・モンテカルロを併用して効率的な計算を行う。
その効果はシミュレーションや実世界のデータを通じて検証され、そこでは確立された頻繁な手法やベイズ的手法と競合する。
論文 参考訳(メタデータ) (2024-09-03T08:01:01Z) - Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Joint Prediction Regions for time-series models [0.0]
IIDデータの場合、JPR(Joint Prediction Region)の計算は容易である。
このプロジェクトは、JPRを構築するWolfとWunderliのメソッドを実装し、他のメソッドと比較することを目的としている。
論文 参考訳(メタデータ) (2024-05-14T02:38:49Z) - UTOPIA: Universally Trainable Optimal Prediction Intervals Aggregation [9.387706860375461]
UTOPIA(Universally Trainable Optimal Predictive Intervals Aggregation)と呼ばれる新しい戦略を導入する。
この技術は、予測帯域の平均幅を小さく保ちながら、複数の予測間隔を効率的に集約し、カバレッジを確保する。
合成データとファイナンスとマクロ経済学における2つの実世界のデータセットに適用することで検証されている。
論文 参考訳(メタデータ) (2023-06-28T20:38:37Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。
このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。
予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文 参考訳(メタデータ) (2023-01-23T18:59:28Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Gaussian Process Boosting [13.162429430481982]
ガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。
シミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。
論文 参考訳(メタデータ) (2020-04-06T13:19:54Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - A Robust Functional EM Algorithm for Incomplete Panel Count Data [66.07942227228014]
完全無作為な仮定(MCAR)の下での数え上げ過程の平均関数を推定する機能的EMアルゴリズムを提案する。
提案アルゴリズムは、いくつかの一般的なパネル数推定手法をラップし、不完全数にシームレスに対処し、ポアソン過程の仮定の誤特定に頑健である。
本稿では, 数値実験による提案アルゴリズムの有用性と喫煙停止データの解析について述べる。
論文 参考訳(メタデータ) (2020-03-02T20:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。