論文の概要: Data Fusion for High-Resolution Estimation
- arxiv url: http://arxiv.org/abs/2508.14858v1
- Date: Wed, 20 Aug 2025 17:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.537291
- Title: Data Fusion for High-Resolution Estimation
- Title(参考訳): 高分解能推定のためのデータ融合
- Authors: Amy Guan, Marissa Reitsma, Roshni Sahoo, Joshua Salomon, Stefan Wager,
- Abstract要約: 人口の健康指標の高精度な推定は、精密な公衆衛生に不可欠である。
異なるデータソースを融合する高分解能推定法を提案する。
- 参考スコア(独自算出の注目度): 2.256930639079776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution estimates of population health indicators are critical for precision public health. We propose a method for high-resolution estimation that fuses distinct data sources: an unbiased, low-resolution data source (e.g. aggregated administrative data) and a potentially biased, high-resolution data source (e.g. individual-level online survey responses). We assume that the potentially biased, high-resolution data source is generated from the population under a model of sampling bias where observables can have arbitrary impact on the probability of response but the difference in the log probabilities of response between units with the same observables is linear in the difference between sufficient statistics of their observables and outcomes. Our data fusion method learns a distribution that is closest (in the sense of KL divergence) to the online survey distribution and consistent with the aggregated administrative data and our model of sampling bias. This method outperforms baselines that rely on either data source alone on a testbed that includes repeated measurements of three indicators measured by both the (online) Household Pulse Survey and ground-truth data sources at two geographic resolutions over the same time period.
- Abstract(参考訳): 人口の健康指標の高精度な推定は、精密な公衆衛生に不可欠である。
本稿では, 偏りのない低解像度データソース(例えば, 管理データ)と, 偏りのある高解像度データソース(例えば, 個人レベルのオンライン調査応答)とを融合した高解像度推定手法を提案する。
我々は,観測可能な単位と観測可能な単位との応答のログ確率の差が,観測可能な単位の十分な統計値と結果の差に線形である場合,サンプリングバイアスのモデルの下で,潜在的に偏りのある高分解能なデータソースが集団から生成されると仮定する。
我々のデータ融合法は, オンライン調査分布に最も近い(KL分散の意味で)分布を学習し, 集約された管理データとサンプリングバイアスモデルとを一致させる。
本手法は, 家庭内パルスサーベイと地上トラスデータの両方で測定された3つの指標を, 同時に2つの地理的解像度で繰り返し測定するテストベッド上で, いずれのデータソースに依存するベースラインよりも優れていた。
関連論文リスト
- Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - Looking at Model Debiasing through the Lens of Anomaly Detection [11.113718994341733]
ディープニューラルネットワークはデータのバイアスに敏感である。
本研究は,偏りと偏りの一致したサンプルを正確に予測することの重要性を示す。
本稿では,異常検出に基づく新しいバイアス同定手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:30:21Z) - Sourcerer: Sample-based Maximum Entropy Source Distribution Estimation [5.673617376471343]
本稿では,最大エントロピー分布,すなわち可能な限り不確実性を維持することを優先する手法を提案する。
提案手法は,Sliced-Wasserstein距離を利用して,データセットとシミュレーションの差分を測定する。
提案手法の有用性を実証するために,何千もの単一ニューロン計測を用いた実験データセットから,Hodgkin-Huxleyモデルのパラメータのソース分布を推定する。
論文 参考訳(メタデータ) (2024-02-12T17:13:02Z) - Interpretable Causal Inference for Analyzing Wearable, Sensor, and Distributional Data [62.56890808004615]
本研究では,信頼性とロバストな意思決定を確実にする,分散データ解析の解釈可能な手法を開発した。
ADD MALTSの有用性について,糖尿病リスク軽減のための連続グルコースモニターの有効性について検討した。
論文 参考訳(メタデータ) (2023-12-17T00:42:42Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。