論文の概要: Changing Data Sources in the Age of Machine Learning for Official
Statistics
- arxiv url: http://arxiv.org/abs/2306.04338v1
- Date: Wed, 7 Jun 2023 11:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:59:40.774750
- Title: Changing Data Sources in the Age of Machine Learning for Official
Statistics
- Title(参考訳): 公式統計学における機械学習時代のデータソースの変化
- Authors: Cedric De Boom and Michael Reusens
- Abstract要約: 本稿では、公式統計学における機械学習の文脈において、データソースの変更に伴う主なリスク、負債、不確実性について概説する。
我々は,統計報告におけるデータソースの変更による影響を強調した。
そうすることで、機械学習に基づく公式統計は、ポリシー作成、意思決定、公開談話における整合性、信頼性、一貫性、および関連性を維持することができる。
- 参考スコア(独自算出の注目度): 1.16503817521043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data science has become increasingly essential for the production of official
statistics, as it enables the automated collection, processing, and analysis of
large amounts of data. With such data science practices in place, it enables
more timely, more insightful and more flexible reporting. However, the quality
and integrity of data-science-driven statistics rely on the accuracy and
reliability of the data sources and the machine learning techniques that
support them. In particular, changes in data sources are inevitable to occur
and pose significant risks that are crucial to address in the context of
machine learning for official statistics.
This paper gives an overview of the main risks, liabilities, and
uncertainties associated with changing data sources in the context of machine
learning for official statistics. We provide a checklist of the most prevalent
origins and causes of changing data sources; not only on a technical level but
also regarding ownership, ethics, regulation, and public perception. Next, we
highlight the repercussions of changing data sources on statistical reporting.
These include technical effects such as concept drift, bias, availability,
validity, accuracy and completeness, but also the neutrality and potential
discontinuation of the statistical offering. We offer a few important
precautionary measures, such as enhancing robustness in both data sourcing and
statistical techniques, and thorough monitoring. In doing so, machine
learning-based official statistics can maintain integrity, reliability,
consistency, and relevance in policy-making, decision-making, and public
discourse.
- Abstract(参考訳): データサイエンスは、大量のデータの自動収集、処理、分析を可能にするため、公式統計の作成にますます不可欠になっている。
このようなデータサイエンスの実践によって、よりタイムリーで、より洞察力があり、より柔軟なレポートが可能になる。
しかし、データサイエンス駆動統計の質と整合性は、データソースの正確性と信頼性とそれをサポートする機械学習技術に依存している。
特に、データソースの変更は必然的に発生し、公式統計のための機械学習の文脈で対処すべき重要なリスクを生じさせる。
本稿では,データソース変更に伴う主なリスク,負債,不確実性について,公式統計のための機械学習の文脈で概説する。
我々は、データソースの変更の最も一般的な起源と原因のチェックリストを提供する。
次に、統計報告におけるデータソース変更の影響を強調する。
これには、概念ドリフト、バイアス、可用性、妥当性、正確性、完全性といった技術的効果だけでなく、統計提供の中立性と潜在的な廃止も含まれる。
データソースと統計技術の両方における堅牢性の向上や、徹底的な監視など、いくつかの重要な予防措置を提供する。
そうすることで、機械学習に基づく公式統計は、ポリシー作成、意思決定、公開談話における整合性、信頼性、一貫性、および関連性を維持することができる。
関連論文リスト
- Towards Explainable Automated Data Quality Enhancement without Domain Knowledge [0.0]
我々は,任意のデータセットにおけるデータ品質問題を自動的に評価し,修正するための包括的フレームワークを提案する。
私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。
統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。
論文 参考訳(メタデータ) (2024-09-16T10:08:05Z) - Do We Really Even Need Data? [2.3749120526936465]
研究者は、事前学習されたアルゴリズムの予測を結果変数として利用している。
推測のための標準的なツールは、真で観測されていない結果が予測された値に置き換えられたときに、独立変数と利害関係の関連性を誤って表現することができる。
論文 参考訳(メタデータ) (2024-01-14T23:19:21Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - DBFed: Debiasing Federated Learning Framework based on
Domain-Independent [15.639705798326213]
本稿では,ドメイン非依存に基づくデバイアス学習フレームワークを提案する。これは,クライアント側トレーニング中に機密属性を明示的に符号化することで,モデルバイアスを緩和する。
本稿では,3つの実データセットについて実験を行い,精度と公平性の5つの評価指標を用いてモデルの効果を定量的に評価する。
論文 参考訳(メタデータ) (2023-07-10T14:39:57Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Fair Densities via Boosting the Sufficient Statistics of Exponential
Families [72.34223801798422]
フェアネスのためのデータ前処理にブースティングアルゴリズムを導入する。
私たちのアプローチは、最小限の公平性を確保しながら、より良いデータフィッティングへとシフトします。
実世界のデータに結果の質を示す実験結果が提示される。
論文 参考訳(メタデータ) (2020-12-01T00:49:17Z) - A Principled Approach to Data Valuation for Federated Learning [73.19984041333599]
フェデレートラーニング(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。
Shapley value (SV) はデータ値の概念として多くのデシラタを満たすユニークなペイオフスキームを定義する。
本稿では,FL に対応する SV の変種を提案する。
論文 参考訳(メタデータ) (2020-09-14T04:37:54Z) - Targeting Learning: Robust Statistics for Reproducible Research [1.1455937444848387]
ターゲティング・ラーニング(Targeted Learning)は、因果推論、機械学習、統計理論の進歩を統一して、科学的に影響のある質問に統計的信頼性で答えるのに役立つ統計分野である。
ターゲット学習のロードマップは、仮説を最小化し、利用可能な科学的知識にのみ注意深く根ざすように、統計的手続きを調整することを強調する。
論文 参考訳(メタデータ) (2020-06-12T17:17:01Z) - A Philosophy of Data [91.3755431537592]
我々は、統計計算に必要な基本特性から統計データの定義まで研究する。
我々は、有用なデータの必要性は、プロパティを根本的にユニークか等しく理解することを規則化する必要があると論じている。
データとデータ技術への依存度が高まるにつれて、この2つの特徴は現実の集合概念に影響を与えます。
論文 参考訳(メタデータ) (2020-04-15T14:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。