論文の概要: SPlit: An Optimal Method for Data Splitting
- arxiv url: http://arxiv.org/abs/2012.10945v2
- Date: Fri, 19 Mar 2021 18:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:45:41.592369
- Title: SPlit: An Optimal Method for Data Splitting
- Title(参考訳): SPlit: データ分割のための最適な方法
- Authors: V. Roshan Joseph and Akhil Vakayil
- Abstract要約: データセットをトレーニングおよびテストセットに分割するためのSPlitと呼ばれる最適な方法を提案する。
逐次隣接アルゴリズムを用いてデータセットからのサブサンプリングにSPを適用する。
実際のデータセットに対するSPlitの実装は、最悪のテスト性能を大幅に改善したことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this article we propose an optimal method referred to as SPlit for
splitting a dataset into training and testing sets. SPlit is based on the
method of Support Points (SP), which was initially developed for finding the
optimal representative points of a continuous distribution. We adapt SP for
subsampling from a dataset using a sequential nearest neighbor algorithm. We
also extend SP to deal with categorical variables so that SPlit can be applied
to both regression and classification problems. The implementation of SPlit on
real datasets shows substantial improvement in the worst-case testing
performance for several modeling methods compared to the commonly used random
splitting procedure.
- Abstract(参考訳): 本稿では,データセットをトレーニングとテストセットに分割するためのSPlitと呼ばれる最適手法を提案する。
SPlitは、最初に連続分布の最適な代表点を見つけるために開発されたSP(Support Points)の手法に基づいている。
逐次隣接アルゴリズムを用いてデータセットからのサブサンプリングにSPを適用する。
また、SPlitを回帰問題と分類問題の両方に適用できるように、分類変数を扱うように拡張する。
実データセット上でのSPlitの実装は、一般的に使用されるランダムスプリッティング法と比較して、いくつかのモデリング手法における最悪のテスト性能を大幅に改善したことを示す。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Adaptive Online Bayesian Estimation of Frequency Distributions with Local Differential Privacy [0.4604003661048266]
本稿では, 局所微分プライバシー(LDP)フレームワークを用いて, 有限個のカテゴリの周波数分布を適応的かつオンラインに推定する手法を提案する。
提案アルゴリズムは, 後方サンプリングによるベイズパラメータ推定を行い, 得られた後方サンプルに基づいて, LDPのランダム化機構を適用する。
提案手法は, (i) アルゴリズムがターゲットとする後続分布が近似した後続サンプリングであっても真のパラメータに収束し, (ii) アルゴリズムが後続サンプリングを正確に行えば高い確率で最適サブセットを選択することを示す理論解析である。
論文 参考訳(メタデータ) (2024-05-11T13:59:52Z) - Sensing Cox Processes via Posterior Sampling and Positive Bases [56.82162768921196]
本研究では,空間統計学から広く用いられている点過程の適応センシングについて検討する。
我々は、この強度関数を、特別に構築された正の基底で表される、歪んだガウス過程のサンプルとしてモデル化する。
我々の適応センシングアルゴリズムはランゲヴィン力学を用いており、後続サンプリング(textscCox-Thompson)と後続サンプリング(textscTop2)の原理に基づいている。
論文 参考訳(メタデータ) (2021-10-21T14:47:06Z) - Data Twinning [0.0]
Twinningは、データセットをトレーニングとテストセットに最適に分割するモデルに依存しない方法であるSPlitに基づいている。
ツインニングはSPlitアルゴリズムよりも桁違いに高速で、データ圧縮などのビッグデータ問題に適用できる。
論文 参考訳(メタデータ) (2021-10-06T17:17:20Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z) - Optimally adaptive Bayesian spectral density estimation for stationary
and nonstationary processes [0.0]
本稿では、ガウス過程を仮定した定常時系列および非定常時系列のスペクトル密度を推定する既存の方法を改善する。
適切な固有分解を最適化することにより、簡単な周期構造と複雑な周期構造の両方でデータをより適切にモデル化する。
論文 参考訳(メタデータ) (2020-03-04T23:35:57Z) - Diversity sampling is an implicit regularization for kernel methods [13.136143245702915]
多様なランドマークを持つNystrのカーネルレグレッションにより,データセットのスペーサー領域におけるレグレッションの精度が向上することを示す。
正確な DPP サンプリングが現実的に実現不可能な場合, 大規模なデータセット内で大きなサイズのサンプルを選択するために, グリーディも提案されている。
論文 参考訳(メタデータ) (2020-02-20T08:24:42Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。