論文の概要: Dimension Agnostic Testing of Survey Data Credibility through the Lens of Regression
- arxiv url: http://arxiv.org/abs/2508.20616v1
- Date: Thu, 28 Aug 2025 10:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.322905
- Title: Dimension Agnostic Testing of Survey Data Credibility through the Lens of Regression
- Title(参考訳): 回帰レンズによる調査データの信頼性の次元非依存検査
- Authors: Debabrota Basu, Sourav Chakraborty, Debarshi Chanda, Buddha Dev Das, Arijit Ghosh, Arnab Ray,
- Abstract要約: 本稿では,サンプル調査の信頼性を評価するためのタスクベース手法を提案する。
具体的には、この信頼性の概念を定量化するために、モデル固有の距離メートル法を導入する。
また,回帰モデルを用いて,調査データの信頼性を検証するアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 15.176331138782444
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Assessing whether a sample survey credibly represents the population is a critical question for ensuring the validity of downstream research. Generally, this problem reduces to estimating the distance between two high-dimensional distributions, which typically requires a number of samples that grows exponentially with the dimension. However, depending on the model used for data analysis, the conclusions drawn from the data may remain consistent across different underlying distributions. In this context, we propose a task-based approach to assess the credibility of sampled surveys. Specifically, we introduce a model-specific distance metric to quantify this notion of credibility. We also design an algorithm to verify the credibility of survey data in the context of regression models. Notably, the sample complexity of our algorithm is independent of the data dimension. This efficiency stems from the fact that the algorithm focuses on verifying the credibility of the survey data rather than reconstructing the underlying regression model. Furthermore, we show that if one attempts to verify credibility by reconstructing the regression model, the sample complexity scales linearly with the dimensionality of the data. We prove the theoretical correctness of our algorithm and numerically demonstrate our algorithm's performance.
- Abstract(参考訳): サンプル調査が人口を確実に表すかどうかを評価することは、下流調査の有効性を確保する上で重要な問題である。
一般に、この問題は2つの高次元分布の間の距離を推定することを減らすが、これは通常、次元と指数関数的に成長する多くのサンプルを必要とする。
しかし、データ解析に使用されるモデルによっては、データから引き出された結論は、下層の異なる分布間で一貫性が保たれる可能性がある。
そこで本研究では,サンプル調査の信頼性を評価するためのタスクベースアプローチを提案する。
具体的には、この信頼性の概念を定量化するために、モデル固有の距離メートル法を導入する。
また,回帰モデルを用いて,調査データの信頼性を検証するアルゴリズムを設計する。
特に、我々のアルゴリズムのサンプルの複雑さは、データ次元とは無関係である。
この効率性は、アルゴリズムが基礎となる回帰モデルを再構築するのではなく、調査データの信頼性を検証することに重点を置いているという事実に起因している。
さらに,回帰モデルを再構成して信頼性を検証しようとすると,サンプルの複雑さはデータの次元と線形にスケールすることを示す。
我々は,アルゴリズムの理論的正当性を証明し,アルゴリズムの性能を数値的に示す。
関連論文リスト
- Testing Credibility of Public and Private Surveys through the Lens of Regression [8.41706324335425]
本稿では,線形回帰の観点から,サンプル調査の信頼性を検証するためのアルゴリズムを設計する。
我々は、調査におけるプライバシーを保証する標準技術であるローカル微分プライバシー(LDP)に焦点を当てる。
本稿では,LDPで公表した調査において,線形回帰モデルを高い確率で学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-07T19:44:20Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。
さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで分析を拡張します。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Predictive Performance Test based on the Exhaustive Nested Cross-Validation for High-dimensional data [7.62566998854384]
クロスバリデーションは、予測誤差の推定、正規化パラメータのチューニング、最も適切な予測モデルの選択など、いくつかのタスクに使用される。
K-foldクロスバリデーションは一般的なCV法であるが、その制限はリスク推定がデータの分割に大きく依存していることである。
本研究は, 完全ネスト型クロスバリデーションに基づく新たな予測性能試験と有効信頼区間を提案する。
論文 参考訳(メタデータ) (2024-08-06T12:28:16Z) - Bayesian Federated Inference for regression models based on non-shared multicenter data sets from heterogeneous populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。
異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。
別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。
このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文 参考訳(メタデータ) (2024-02-05T11:10:27Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Bayesian Imaging With Data-Driven Priors Encoded by Neural Networks:
Theory, Methods, and Algorithms [2.266704469122763]
本稿では,事前知識がトレーニングデータとして利用可能である逆問題に対して,ベイズ推定を行う新しい手法を提案する。
容易に検証可能な条件下で,関連する後方モーメントの存在と適切性を確立する。
モデル精度解析により、データ駆動モデルによって報告されるベイズ確率は、頻繁な定義の下で著しく正確であることが示された。
論文 参考訳(メタデータ) (2021-03-18T11:34:08Z) - Testing for Typicality with Respect to an Ensemble of Learned
Distributions [5.850572971372637]
適合性のよい問題に対する一サンプルのアプローチは、オンラインテストに多大な計算上の利点をもたらす。
この設定において異常データを正しく否定する能力は、ベース分布のモデルの精度に依存する。
既成の正当性問題に対する既存の手法は、基底分布のモデルが学習されたという事実を考慮に入れない。
本稿では,アンサンブルの任意の構成員に対して,データが異常であれば異常データとなることを考慮し,密度モデルのアンサンブルを訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-11T19:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。