論文の概要: A step towards the integration of machine learning and small area
estimation
- arxiv url: http://arxiv.org/abs/2402.07521v1
- Date: Mon, 12 Feb 2024 09:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:57:18.285338
- Title: A step towards the integration of machine learning and small area
estimation
- Title(参考訳): 機械学習と小面積推定の統合に向けて
- Authors: Tomasz \.Z\k{a}d{\l}o, Adam Chwila
- Abstract要約: 本稿では,機械学習アルゴリズムがサポートする予測器を提案する。
仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of machine-learning techniques has grown in numerous research areas.
Currently, it is also widely used in statistics, including the official
statistics for data collection (e.g. satellite imagery, web scraping and text
mining, data cleaning, integration and imputation) but also for data analysis.
However, the usage of these methods in survey sampling including small area
estimation is still very limited. Therefore, we propose a predictor supported
by these algorithms which can be used to predict any population or
subpopulation characteristics based on cross-sectional and longitudinal data.
Machine learning methods have already been shown to be very powerful in
identifying and modelling complex and nonlinear relationships between the
variables, which means that they have very good properties in case of strong
departures from the classic assumptions. Therefore, we analyse the performance
of our proposal under a different set-up, in our opinion of greater importance
in real-life surveys. We study only small departures from the assumed model, to
show that our proposal is a good alternative in this case as well, even in
comparison with optimal methods under the model. What is more, we propose the
method of the accuracy estimation of machine learning predictors, giving the
possibility of the accuracy comparison with classic methods, where the accuracy
is measured as in survey sampling practice. The solution of this problem is
indicated in the literature as one of the key issues in integration of these
approaches. The simulation studies are based on a real, longitudinal dataset,
freely available from the Polish Local Data Bank, where the prediction problem
of subpopulation characteristics in the last period, with "borrowing strength"
from other subpopulations and time periods, is considered.
- Abstract(参考訳): 機械学習技術の利用は多くの研究領域で増加している。
現在、データ収集の公式統計(衛星画像、webスクレイピング、テキストマイニング、データのクリーニング、統合、インプテーションなど)だけでなく、データ分析にも広く使われている。
しかし,小面積推定を含む検層におけるこれらの手法の利用は依然として限られている。
そこで本研究では,これらのアルゴリズムが支持する予測器を提案する。
機械学習の手法は、変数間の複雑で非線形な関係を同定しモデル化する上で、すでに非常に強力であることが示されている。
そこで本研究は,実生活調査の重要度が高いという意見から,提案手法の性能を異なる設定で分析する。
我々は,提案手法がモデルに基づく最適手法と比較しても,提案手法が望ましい代替案であることを示すため,仮定モデルからの小さな離脱のみを考察した。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法と比較して精度を計測する手法を提案する。
この問題の解法は、これらのアプローチの統合における重要な問題の1つとして文献に示されている。
シミュレーション研究は,ポーランド地方データバンクから無償で入手可能な実時間データセットに基づいており,最終期のサブポピュレーション特性の予測問題は,他のサブポピュレーションや期間からの「ボーリング強度」が考慮されている。
関連論文リスト
- Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Prediction-Powered Inference with Imputed Covariates and Nonuniform Sampling [20.078602767179355]
機械学習予測におけるエラーを適切に説明できないことは、標準的な統計手順を無効にする。
我々は、完全なデータが一様でないサンプル(重み付け、成層化、クラスタ化)である場合に適用されるブートストラップの信頼区間と、任意の機能のサブセットが暗示される設定を紹介する。
これらの信頼区間は、機械学習モデルの品質を仮定せずに有効であり、機械学習予測を使用しない手法によって得られる区間よりも広くないことを示す。
論文 参考訳(メタデータ) (2025-01-30T18:46:43Z) - Boosting Test Performance with Importance Sampling--a Subpopulation Perspective [16.678910111353307]
本稿では,重要なサンプリングを,サブポピュレーション問題を解決するためのシンプルかつ強力なツールとして同定する。
サブポピュレーション問題の新しい体系的定式化を行い、既存の研究で明確に述べられていない仮定を明確に特定する。
アプリケーション側では、サブポピュレーション問題を解決するのに十分な1つの推定器を実証する。
論文 参考訳(メタデータ) (2024-12-17T15:25:24Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Multi-dimensional domain generalization with low-rank structures [18.565189720128856]
統計的および機械学習の手法では、テストデータがトレーニングデータと同一に分散されていると仮定されるのが一般的である。
この仮定は必ずしも成り立たないが、特にトレーニングデータに対象の個体群がよく表現されていないアプリケーションでは顕著である。
線形回帰モデルにおいて,この問題に対処するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-18T08:07:58Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Mixed moving average field guided learning for spatio-temporal data [0.0]
我々は,新しいベイズ時間埋め込みと理論誘導型機械学習アプローチを定義し,アンサンブル予測を行う。
リプシッツ予測器を用いて、バッチ学習環境における固定時間および任意の時間PACを決定する。
次に、線形予測器とOrnstein-Uhlenbeckプロセスからシミュレーションしたデータセットを用いて学習手法の性能を検証した。
論文 参考訳(メタデータ) (2023-01-02T16:11:05Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。