Fugu-MT 論文翻訳(概要): A step towards the integration of machine learning and small area estimation

論文の概要: A step towards the integration of machine learning and small area estimation

arxiv url: http://arxiv.org/abs/2402.07521v1
Date: Mon, 12 Feb 2024 09:43:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 14:57:18.285338
Title: A step towards the integration of machine learning and small area estimation
Title（参考訳）: 機械学習と小面積推定の統合に向けて
Authors: Tomasz \.Z\k{a}d{\l}o, Adam Chwila
Abstract要約: 本稿では,機械学習アルゴリズムがサポートする予測器を提案する。仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The use of machine-learning techniques has grown in numerous research areas. Currently, it is also widely used in statistics, including the official statistics for data collection (e.g. satellite imagery, web scraping and text mining, data cleaning, integration and imputation) but also for data analysis. However, the usage of these methods in survey sampling including small area estimation is still very limited. Therefore, we propose a predictor supported by these algorithms which can be used to predict any population or subpopulation characteristics based on cross-sectional and longitudinal data. Machine learning methods have already been shown to be very powerful in identifying and modelling complex and nonlinear relationships between the variables, which means that they have very good properties in case of strong departures from the classic assumptions. Therefore, we analyse the performance of our proposal under a different set-up, in our opinion of greater importance in real-life surveys. We study only small departures from the assumed model, to show that our proposal is a good alternative in this case as well, even in comparison with optimal methods under the model. What is more, we propose the method of the accuracy estimation of machine learning predictors, giving the possibility of the accuracy comparison with classic methods, where the accuracy is measured as in survey sampling practice. The solution of this problem is indicated in the literature as one of the key issues in integration of these approaches. The simulation studies are based on a real, longitudinal dataset, freely available from the Polish Local Data Bank, where the prediction problem of subpopulation characteristics in the last period, with "borrowing strength" from other subpopulations and time periods, is considered.
Abstract（参考訳）: 機械学習技術の利用は多くの研究領域で増加している。現在、データ収集の公式統計(衛星画像、webスクレイピング、テキストマイニング、データのクリーニング、統合、インプテーションなど)だけでなく、データ分析にも広く使われている。しかし,小面積推定を含む検層におけるこれらの手法の利用は依然として限られている。そこで本研究では,これらのアルゴリズムが支持する予測器を提案する。機械学習の手法は、変数間の複雑で非線形な関係を同定しモデル化する上で、すでに非常に強力であることが示されている。そこで本研究は,実生活調査の重要度が高いという意見から,提案手法の性能を異なる設定で分析する。我々は,提案手法がモデルに基づく最適手法と比較しても,提案手法が望ましい代替案であることを示すため,仮定モデルからの小さな離脱のみを考察した。さらに,機械学習予測器の精度推定手法を提案し,従来の手法と比較して精度を計測する手法を提案する。この問題の解法は、これらのアプローチの統合における重要な問題の1つとして文献に示されている。シミュレーション研究は,ポーランド地方データバンクから無償で入手可能な実時間データセットに基づいており,最終期のサブポピュレーション特性の予測問題は,他のサブポピュレーションや期間からの「ボーリング強度」が考慮されている。

関連論文リスト

Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文参考訳（メタデータ） (2025-02-10T21:59:27Z)
Prediction-Powered Inference with Imputed Covariates and Nonuniform Sampling [20.078602767179355]
機械学習予測におけるエラーを適切に説明できないことは、標準的な統計手順を無効にする。我々は、完全なデータが一様でないサンプル(重み付け、成層化、クラスタ化)である場合に適用されるブートストラップの信頼区間と、任意の機能のサブセットが暗示される設定を紹介する。これらの信頼区間は、機械学習モデルの品質を仮定せずに有効であり、機械学習予測を使用しない手法によって得られる区間よりも広くないことを示す。
論文参考訳（メタデータ） (2025-01-30T18:46:43Z)
Boosting Test Performance with Importance Sampling--a Subpopulation Perspective [16.678910111353307]
本稿では,重要なサンプリングを,サブポピュレーション問題を解決するためのシンプルかつ強力なツールとして同定する。サブポピュレーション問題の新しい体系的定式化を行い、既存の研究で明確に述べられていない仮定を明確に特定する。アプリケーション側では、サブポピュレーション問題を解決するのに十分な1つの推定器を実証する。
論文参考訳（メタデータ） (2024-12-17T15:25:24Z)
Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文参考訳（メタデータ） (2024-08-14T20:14:42Z)
Machine Learning for Predicting Chaotic Systems [0.0]
カオス力学系の予測は、天気予報など多くの科学分野において重要である。本稿では,軽量かつ重厚な機械学習アーキテクチャの比較を行う。従来のメトリクスの望ましい特性を組み合わせ、カオスシステムに適した新しい計量である累積最大誤差を導入する。
論文参考訳（メタデータ） (2024-07-29T16:34:47Z)
Minimally Supervised Learning using Topological Projections in Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-01-12T22:51:48Z)
How to Determine the Most Powerful Pre-trained Language Model without Brute Force Fine-tuning? An Empirical Survey [23.757740341834126]
その結果,H-Scoreは効率性や効率性に優れることがわかった。また、トレーニングの詳細、テキスト生成への適用性、今後の方向性に光を当てる特定の指標との整合性といった難しさについても概説する。
論文参考訳（メタデータ） (2023-12-08T01:17:28Z)
Multi-dimensional domain generalization with low-rank structures [18.565189720128856]
統計的および機械学習の手法では、テストデータがトレーニングデータと同一に分散されていると仮定されるのが一般的である。この仮定は必ずしも成り立たないが、特にトレーニングデータに対象の個体群がよく表現されていないアプリケーションでは顕著である。線形回帰モデルにおいて,この問題に対処するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-09-18T08:07:58Z)
A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文参考訳（メタデータ） (2023-04-11T09:13:17Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
In Search of Insights, Not Magic Bullets: Towards Demystification of the Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文参考訳（メタデータ） (2023-02-06T16:55:37Z)
Mixed moving average field guided learning for spatio-temporal data [0.0]
我々は,新しいベイズ時間埋め込みと理論誘導型機械学習アプローチを定義し,アンサンブル予測を行う。リプシッツ予測器を用いて、バッチ学習環境における固定時間および任意の時間PACを決定する。次に、線形予測器とOrnstein-Uhlenbeckプロセスからシミュレーションしたデータセットを用いて学習手法の性能を検証した。
論文参考訳（メタデータ） (2023-01-02T16:11:05Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
The Lifecycle of a Statistical Model: Model Failure Detection, Identification, and Refitting [26.351782287953267]
モデル性能が低下し始めた共変量空間(サブポピュレーション)の領域を検出し同定するためのツールと理論を開発した。実世界の3つのデータセットを用いて実験結果を示す。我々はこれらの実験結果を補足し、我々の手法が異常なサブ集団の回復に最適であることを示す理論で補足する。
論文参考訳（メタデータ） (2022-02-08T22:02:31Z)
Selecting the suitable resampling strategy for imbalanced data classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文参考訳（メタデータ） (2021-12-15T18:56:39Z)
Predictive machine learning for prescriptive applications: a coupled training-validating approach [77.34726150561087]
規範的応用のための予測機械学習モデルをトレーニングするための新しい手法を提案する。このアプローチは、標準的なトレーニング検証テストスキームの検証ステップを微調整することに基づいている。合成データを用いたいくつかの実験は、決定論的モデルと実モデルの両方において処方料コストを削減できる有望な結果を示した。
論文参考訳（メタデータ） (2021-10-22T15:03:20Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文参考訳（メタデータ） (2021-04-11T09:50:24Z)
Detangling robustness in high dimensions: composite versus model-averaged estimation [11.658462692891355]
ロバスト法は、実際にはユビキタスであるが、正規化推定や高次元の文脈ではまだ完全には理解されていない。本稿では,これらの設定におけるロバスト性をさらに研究し,予測に焦点を当てたツールボックスを提供する。
論文参考訳（メタデータ） (2020-06-12T20:40:15Z)
Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文参考訳（メタデータ） (2020-06-08T18:20:28Z)
Marginal likelihood computation for model selection and hypothesis testing: an extensive review [66.37504201165159]
この記事では、このトピックの最先端に関する総合的な研究について紹介する。さまざまなテクニックの制限、メリット、コネクション、差異を強調します。また、不適切な事前利用の問題や解決法についても述べる。
論文参考訳（メタデータ） (2020-05-17T18:31:58Z)
Machine learning for causal inference: on the use of cross-fit estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-04-21T23:09:55Z)
Design-unbiased statistical learning in survey sampling [0.0]
そこで我々は,Rao-Blackwell法をサブサンプルとして提案し,正確な設計不偏性推定のための統計的学習理論を開発した。我々のアプローチは、統計科学の古典的アイデアと、急速に成長する機械学習の分野を生かしている。
論文参考訳（メタデータ） (2020-03-25T14:27:39Z)
Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文参考訳（メタデータ） (2019-12-30T09:50:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。