論文の概要: Optimal Sampling for Generalized Linear Model under Measurement Constraint with Surrogate Variables
- arxiv url: http://arxiv.org/abs/2501.00972v2
- Date: Tue, 14 Jan 2025 01:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 02:44:46.248242
- Title: Optimal Sampling for Generalized Linear Model under Measurement Constraint with Surrogate Variables
- Title(参考訳): サロゲート変数による測定制約下における一般化線形モデルの最適サンプリング
- Authors: Yixin Shen, Yang Ning,
- Abstract要約: 場合によっては、代理変数はデータセット全体を通してアクセスでき、真の応答変数の近似として機能する。
本稿では,サロゲート変数から得られる情報を効果的に活用する最適なサンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 3.5903555216741405
- License:
- Abstract: Measurement-constrained datasets, often encountered in semi-supervised learning, arise when data labeling is costly, time-intensive, or hindered by confidentiality or ethical concerns, resulting in a scarcity of labeled data. In certain cases, surrogate variables are accessible across the entire dataset and can serve as approximations to the true response variable; however, these surrogates often contain measurement errors and thus cannot be directly used for accurate prediction. We propose an optimal sampling strategy that effectively harnesses the available information from surrogate variables. This approach provides consistent estimators under the assumption of a generalized linear model, achieving theoretically lower asymptotic variance than existing optimal sampling algorithms that do not use surrogate data information. By employing the A-optimality criterion from optimal experimental design, our strategy maximizes statistical efficiency. Numerical studies demonstrate that our approach surpasses existing optimal sampling methods, exhibiting reduced empirical mean squared error and enhanced robustness in algorithmic performance. These findings highlight the practical advantages of our strategy in scenarios where measurement constraints exist and surrogates are available.
- Abstract(参考訳): 半教師付き学習でしばしば発生する測定制約データセットは、データラベリングがコストが高く、時間集約的であったり、機密性や倫理的懸念によって妨げられたりして、ラベル付きデータの不足が発生する。
ある場合には、代理変数はデータセット全体を通してアクセス可能であり、真の応答変数の近似として機能するが、これらの代理変数はしばしば測定エラーを含むため、正確な予測には直接は使用できない。
本稿では,サロゲート変数から得られる情報を効果的に活用する最適なサンプリング戦略を提案する。
このアプローチは、一般化線形モデルの仮定の下で一貫した推定器を提供し、サロゲートデータ情報を使用しない既存の最適なサンプリングアルゴリズムよりも理論的に漸近的な分散を達成する。
最適設計からA-最適基準を用いることで,統計的効率を最大化する。
数値解析により,提案手法は既存の最適サンプリング手法を超越し,経験的平均二乗誤差の低減とアルゴリズム性能の強化が示されている。
これらの知見は,測定制約が存在し,サロゲートが利用できるシナリオにおいて,我々の戦略の実用上の利点を浮き彫りにしている。
関連論文リスト
- Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [61.580419063416734]
最近の構造化学習手法のストリームは、様々な最適化問題に対する技術の実践的状態を改善している。
鍵となる考え方は、インスタンスを別々に扱うのではなく、インスタンス上の統計分布を利用することだ。
本稿では,最適化を容易にし,一般化誤差を改善するポリシを摂動することでリスクを円滑にする手法について検討する。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Semi-Supervised U-statistics [22.696630428733204]
ラベルなしデータの豊富さによって強化された半教師付きU統計を導入する。
提案手法は古典的U統計よりも顕著な効率向上を示すことを示す。
我々は,すべての先進国において古典的U統計よりも優れた改良されたアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-29T07:29:27Z) - Globally-Optimal Greedy Experiment Selection for Active Sequential
Estimation [1.1530723302736279]
逐次的に収集したデータの実験を適応的に選択するアクティブシーケンシャル推定の問題について検討する。
目標は、より正確なモデル推定のための実験選択ルールを設計することである。
そこで本稿では,グリーディ実験の選択手法のクラスを提案し,最大可能性の統計的解析を行う。
論文 参考訳(メタデータ) (2024-02-13T17:09:29Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms
and Theoretical Studies [1.6457778420360534]
任意の損失関数を強固化するために, 外部抵抗推定の枠組みを導入する。
通常のデータセットでは、データ再見積の回数を大幅に削減できるような、開始点の要件を緩和する新しい手法が提案されている。
得られた推定器は、必ずしも大域的でも大域的でもなくても、両方の低次元において最適性を楽しむことができる。
論文 参考訳(メタデータ) (2021-12-15T20:35:21Z) - Debiasing In-Sample Policy Performance for Small-Data, Large-Scale
Optimization [4.554894288663752]
本稿では,データ駆動最適化におけるポリシのアウト・オブ・サンプル性能の新たな推定法を提案する。
クロスバリデーションとは異なり、我々の手法はテストセットのデータを犠牲にするのを避ける。
我々は,小規模・大規模システムにおける推定器の性能を実証する。
論文 参考訳(メタデータ) (2021-07-26T19:00:51Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。