論文の概要: Small Area Estimation with Random Forests and the LASSO
- arxiv url: http://arxiv.org/abs/2308.15180v1
- Date: Tue, 29 Aug 2023 10:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:38:11.586144
- Title: Small Area Estimation with Random Forests and the LASSO
- Title(参考訳): ランダム森林とLASSOによる小面積推定
- Authors: Victoire Michal, Jon Wakefield, Alexandra M. Schmidt, Alicia
Cavanaugh, Brian Robinson and Jill Baumgartner
- Abstract要約: この研究は、第6回リビング・スタンダード・サーベイ(GLSS)と2010年の人口・住宅国勢調査から得られるガーナのデータによって動機付けられている。
我々は、アラルレベルのランダム林とLASSOアプローチを、頻繁な前方変動選択法とベイズ縮小法と比較した。
GAMA領域にまたがる1.3倍の変動を示すログ消費地域推定値として,面積間の実質的な変動がみられた。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider random forests and LASSO methods for model-based small area
estimation when the number of areas with sampled data is a small fraction of
the total areas for which estimates are required. Abundant auxiliary
information is available for the sampled areas, from the survey, and for all
areas, from an exterior source, and the goal is to use auxiliary variables to
predict the outcome of interest. We compare areal-level random forests and
LASSO approaches to a frequentist forward variable selection approach and a
Bayesian shrinkage method. Further, to measure the uncertainty of estimates
obtained from random forests and the LASSO, we propose a modification of the
split conformal procedure that relaxes the assumption of identically
distributed data. This work is motivated by Ghanaian data available from the
sixth Living Standard Survey (GLSS) and the 2010 Population and Housing Census.
We estimate the areal mean household log consumption using both datasets. The
outcome variable is measured only in the GLSS for 3\% of all the areas (136 out
of 5019) and more than 170 potential covariates are available from both
datasets. Among the four modelling methods considered, the Bayesian shrinkage
performed the best in terms of bias, MSE and prediction interval coverages and
scores, as assessed through a cross-validation study. We find substantial
between-area variation, the log consumption areal point estimates showing a
1.3-fold variation across the GAMA region. The western areas are the poorest
while the Accra Metropolitan Area district gathers the richest areas.
- Abstract(参考訳): 本研究では,サンプルデータを含む領域数が推定対象面積のごく一部である場合,モデルに基づく小面積推定のためのランダム森林法とLASSO法を検討する。
調査対象地域,調査対象地域,およびすべての地域において,外部からの補助情報が利用可能であり,目的は利害関係の予測に補助変数を使用することである。
我々は、アラルレベルのランダム林とLASSOアプローチを、頻繁な前方変動選択法とベイズ縮小法と比較した。
さらに,ランダム林とラッソ林から得られた推定の不確実性を測定するために,同一分布データの仮定を緩和する分割共形手順の修正を提案する。
この研究は、第6次living standard survey(glss)と2010年の人口調査から得られたガーナのデータを動機としている。
両データセットを用いて平均世帯ログ消費量を推定する。
結果変数は全領域の3\%(5019中136)のGLSSでのみ測定され、両方のデータセットから170以上の潜在的な共変量が存在する。
検討した4つのモデリング手法のうち, ベイズ収縮は, バイアス, mse, 予測区間被覆率, スコアの点で, クロス・バリデーション・スタディにより評価した。
GAMA領域にまたがる1.3倍の変動を示すログ消費地域推定値として,面積間の実質的な変動がみられた。
西部は最も貧しい地域であり、アクラ大都市圏は最も裕福な地域である。
関連論文リスト
- Less is More: Fewer Interpretable Region via Submodular Subset Selection [54.07758302264416]
本稿では,上述の画像帰属問題を部分モジュラ部分選択問題として再モデル化する。
我々は、より正確な小さな解釈領域を発見するために、新しい部分モジュラー関数を構築する。
正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。
論文 参考訳(メタデータ) (2024-02-14T13:30:02Z) - A step towards the integration of machine learning and small area
estimation [0.0]
本稿では,機械学習アルゴリズムがサポートする予測器を提案する。
仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
論文 参考訳(メタデータ) (2024-02-12T09:43:17Z) - Numerically assisted determination of local models in network scenarios [55.2480439325792]
統計的振る舞いを再現する明示的な局所モデルを見つけるための数値ツールを開発する。
グリーンベルガー・ホルン・ザイリンガー(GHZ)およびW分布の臨界振動性に関する予想を提供する。
開発されたコードとドキュメントは、281.com/mariofilho/localmodelsで公開されている。
論文 参考訳(メタデータ) (2023-03-17T13:24:04Z) - Habitat classification from satellite observations with sparse
annotations [4.164845768197488]
リモートセンシングデータを用いた生息地分類とマッピング手法を提案する。
この方法は、フィールドから収集された細粒度でスパースな単一ピクセルアノテーションを使用することによって特徴付けられる。
本研究では, 収穫増量, 試験時間増量, 半教師付き学習が, さらに分類の助けとなることを示す。
論文 参考訳(メタデータ) (2022-09-26T20:14:59Z) - Country-wide Retrieval of Forest Structure From Optical and SAR
Satellite Imagery With Bayesian Deep Learning [74.94436509364554]
本研究では,10mの解像度で森林構造変数を高密度に推定するベイズ深層学習手法を提案する。
本手法は,Sentinel-2光画像とSentinel-1合成開口レーダ画像を5種類の森林構造変数のマップに変換する。
ノルウェーを横断する41の空中レーザー走査ミッションの基準データに基づいて、我々のモデルを訓練し、テストする。
論文 参考訳(メタデータ) (2021-11-25T16:21:28Z) - A windowed correlation based feature selection method to improve time
series prediction of dengue fever cases [0.20072624123275526]
予測性能の低さは、不適切なデータを持つ場所につながる可能性がある。
新しいフレームワークは、インシデントデータのウィンドウ化と時間シフト相関に基づくメトリクスの計算を行う。
繰り返しニューラルネットワークに基づく予測モデルは、平均33.6%の精度向上を達成している。
論文 参考訳(メタデータ) (2021-04-21T00:28:28Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Magnify Your Population: Statistical Downscaling to Augment the Spatial
Resolution of Socioeconomic Census Data [48.7576911714538]
重要社会経済的属性の詳細な推定を導出する新しい統計的ダウンスケーリング手法を提案する。
選択された社会経済変数ごとに、ランダムフォレストモデルが元の国勢調査単位に基づいて訓練され、その後、微細なグリッド化された予測を生成するために使用される。
本研究では,この手法を米国の国勢調査データに適用し,ブロック群レベルで選択された社会経済変数を,300の空間分解能のグリッドにダウンスケールする。
論文 参考訳(メタデータ) (2020-06-23T16:52:18Z) - Towards Adaptive Benthic Habitat Mapping [9.904746542801838]
本研究では,効率的な自律下水車両(AUV)探査計画に生息環境モデルを用いる方法を示す。
ベイズニューラルネットワークは、広範囲な水量測定データを与えられたとき、視覚的に派生した生息地クラスを予測するために使用される。
これらの構造的不確実性推定が、より少ないサンプルでモデルを改善するためにどのように利用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-20T01:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。