論文の概要: A step towards the integration of machine learning and small area
estimation
- arxiv url: http://arxiv.org/abs/2402.07521v1
- Date: Mon, 12 Feb 2024 09:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:57:18.285338
- Title: A step towards the integration of machine learning and small area
estimation
- Title(参考訳): 機械学習と小面積推定の統合に向けて
- Authors: Tomasz \.Z\k{a}d{\l}o, Adam Chwila
- Abstract要約: 本稿では,機械学習アルゴリズムがサポートする予測器を提案する。
仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of machine-learning techniques has grown in numerous research areas.
Currently, it is also widely used in statistics, including the official
statistics for data collection (e.g. satellite imagery, web scraping and text
mining, data cleaning, integration and imputation) but also for data analysis.
However, the usage of these methods in survey sampling including small area
estimation is still very limited. Therefore, we propose a predictor supported
by these algorithms which can be used to predict any population or
subpopulation characteristics based on cross-sectional and longitudinal data.
Machine learning methods have already been shown to be very powerful in
identifying and modelling complex and nonlinear relationships between the
variables, which means that they have very good properties in case of strong
departures from the classic assumptions. Therefore, we analyse the performance
of our proposal under a different set-up, in our opinion of greater importance
in real-life surveys. We study only small departures from the assumed model, to
show that our proposal is a good alternative in this case as well, even in
comparison with optimal methods under the model. What is more, we propose the
method of the accuracy estimation of machine learning predictors, giving the
possibility of the accuracy comparison with classic methods, where the accuracy
is measured as in survey sampling practice. The solution of this problem is
indicated in the literature as one of the key issues in integration of these
approaches. The simulation studies are based on a real, longitudinal dataset,
freely available from the Polish Local Data Bank, where the prediction problem
of subpopulation characteristics in the last period, with "borrowing strength"
from other subpopulations and time periods, is considered.
- Abstract(参考訳): 機械学習技術の利用は多くの研究領域で増加している。
現在、データ収集の公式統計(衛星画像、webスクレイピング、テキストマイニング、データのクリーニング、統合、インプテーションなど)だけでなく、データ分析にも広く使われている。
しかし,小面積推定を含む検層におけるこれらの手法の利用は依然として限られている。
そこで本研究では,これらのアルゴリズムが支持する予測器を提案する。
機械学習の手法は、変数間の複雑で非線形な関係を同定しモデル化する上で、すでに非常に強力であることが示されている。
そこで本研究は,実生活調査の重要度が高いという意見から,提案手法の性能を異なる設定で分析する。
我々は,提案手法がモデルに基づく最適手法と比較しても,提案手法が望ましい代替案であることを示すため,仮定モデルからの小さな離脱のみを考察した。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法と比較して精度を計測する手法を提案する。
この問題の解法は、これらのアプローチの統合における重要な問題の1つとして文献に示されている。
シミュレーション研究は,ポーランド地方データバンクから無償で入手可能な実時間データセットに基づいており,最終期のサブポピュレーション特性の予測問題は,他のサブポピュレーションや期間からの「ボーリング強度」が考慮されている。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - How to Determine the Most Powerful Pre-trained Language Model without
Brute Force Fine-tuning? An Empirical Survey [23.757740341834126]
その結果,H-Scoreは効率性や効率性に優れることがわかった。
また、トレーニングの詳細、テキスト生成への適用性、今後の方向性に光を当てる特定の指標との整合性といった難しさについても概説する。
論文 参考訳(メタデータ) (2023-12-08T01:17:28Z) - Multi-dimensional domain generalization with low-rank structures [18.565189720128856]
統計的および機械学習の手法では、テストデータがトレーニングデータと同一に分散されていると仮定されるのが一般的である。
この仮定は必ずしも成り立たないが、特にトレーニングデータに対象の個体群がよく表現されていないアプリケーションでは顕著である。
線形回帰モデルにおいて,この問題に対処するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-18T08:07:58Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Mixed moving average field guided learning for spatio-temporal data [0.0]
我々は,新しいベイズ時間埋め込みと理論誘導型機械学習アプローチを定義し,アンサンブル予測を行う。
リプシッツ予測器を用いて、バッチ学習環境における固定時間および任意の時間PACを決定する。
次に、線形予測器とOrnstein-Uhlenbeckプロセスからシミュレーションしたデータセットを用いて学習手法の性能を検証した。
論文 参考訳(メタデータ) (2023-01-02T16:11:05Z) - The Lifecycle of a Statistical Model: Model Failure Detection,
Identification, and Refitting [26.351782287953267]
モデル性能が低下し始めた共変量空間(サブポピュレーション)の領域を検出し同定するためのツールと理論を開発した。
実世界の3つのデータセットを用いて実験結果を示す。
我々はこれらの実験結果を補足し、我々の手法が異常なサブ集団の回復に最適であることを示す理論で補足する。
論文 参考訳(メタデータ) (2022-02-08T22:02:31Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。