論文の概要: Learning from Biased and Costly Data Sources: Minimax-optimal Data Collection under a Budget
- arxiv url: http://arxiv.org/abs/2602.17894v1
- Date: Thu, 19 Feb 2026 23:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.178771
- Title: Learning from Biased and Costly Data Sources: Minimax-optimal Data Collection under a Budget
- Title(参考訳): バイアスとコストのかかるデータソースから学ぶ:予算下での最小最適データ収集
- Authors: Michael O. Harding, Vikas Singh, Kirthevasan Kandasamy,
- Abstract要約: 医学研究や政治調査のような多くのユースケースでは、異なる情報源が異なるサンプリングコストを発生させる。
有効なサンプルサイズを最大化するサンプリング計画を作成する。
一致した下限を提供し、我々のアプローチが予算化された最小限のリスクを達成できることを確かめる。
- 参考スコア(独自算出の注目度): 23.14662431994667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data collection is a critical component of modern statistical and machine learning pipelines, particularly when data must be gathered from multiple heterogeneous sources to study a target population of interest. In many use cases, such as medical studies or political polling, different sources incur different sampling costs. Observations often have associated group identities (for example, health markers, demographics, or political affiliations) and the relative composition of these groups may differ substantially, both among the source populations and between sources and target population. In this work, we study multi-source data collection under a fixed budget, focusing on the estimation of population means and group-conditional means. We show that naive data collection strategies (e.g. attempting to "match" the target distribution) or relying on standard estimators (e.g. sample mean) can be highly suboptimal. Instead, we develop a sampling plan which maximizes the effective sample size: the total sample size divided by $D_{χ^2}(q\mid\mid\overline{p}) + 1$, where $q$ is the target distribution, $\overline{p}$ is the aggregated source distribution, and $D_{χ^2}$ is the $χ^2$-divergence. We pair this sampling plan with a classical post-stratification estimator and upper bound its risk. We provide matching lower bounds, establishing that our approach achieves the budgeted minimax optimal risk. Our techniques also extend to prediction problems when minimizing the excess risk, providing a principled approach to multi-source learning with costly and heterogeneous data sources.
- Abstract(参考訳): データ収集は、現代の統計および機械学習パイプラインの重要な構成要素であり、特に、対象とする関心の人口を研究するために、複数の異種ソースからデータを収集する必要がある場合である。
医学研究や政治調査のような多くのユースケースでは、異なる情報源が異なるサンプリングコストを発生させる。
観察は、しばしば関連する集団のアイデンティティ(例えば、健康マーカー、人口統計学、政治的関連)を持ち、これらのグループの相対的な構成は、ソースの個体群とソースとターゲットの個体群の間で大きく異なる可能性がある。
本研究では,固定予算下でのマルチソースデータ収集について検討し,集団平均値と集団条件値の推定に着目した。
データ収集戦略(例えば、対象の分布を"マッチ"しようとする場合)や、標準推定器(例えば、サンプル平均)に依存している場合、極端に最適であることを示す。
サンプルの総サイズを$D_{n^2}(q\mid\overline{p}) + 1$で割った場合、$q$はターゲット分布、$\overline{p}$は集約されたソース分布、$D_{n^2}$は$d^2$-divergenceである。
このサンプリング計画と古典的なポストストラトフィケーション推定器を組み合わせ、リスクを上限とする。
一致した下限を提供し、我々のアプローチが予算化された最小限のリスクを達成できることを確かめる。
また,過剰リスクを最小限に抑えた場合の予測問題にも拡張し,低コストで異種なデータソースを用いたマルチソース学習への原則的アプローチを提供する。
関連論文リスト
- Is Multi-Distribution Learning as Easy as PAC Learning: Sharp Rates with Bounded Label Noise [26.182166506085114]
k$分布の学習は、各分布が別々に学習されない限り、一定の雑音レベル下であっても、$k/2$で遅い速度でスケーリングすることを示した。
重要な技術的貢献は、ほぼ最適性を証明する統計的コストをキャプチャする構造化仮説テストフレームワークである。
論文 参考訳(メタデータ) (2026-02-24T16:00:15Z) - Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [72.69498649272347]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しいパラダイムを提案する。
提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Causality Pursuit from Heterogeneous Environments via Neural Adversarial Invariance Learning [12.947265104477237]
データから因果関係を抽出することは、科学的発見、治療介入、伝達学習における根本的な問題である。
本稿では,複数の環境における回帰モデルにおける非パラメトリック不変性と因果学習に対処するアルゴリズムを提案する。
提案したFocused Adrial Invariant Regularizationフレームワークは、逆検定により回帰モデルを予測不変解へ向ける革新的なミニマックス最適化手法を利用する。
論文 参考訳(メタデータ) (2024-05-07T23:37:40Z) - Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
ヒューマンフィードバック(RLHF)からの強化学習を用いた大規模言語モデル(LLM)のアライメント
状況の均一なサンプリングは、最適政策と一定の準最適差を被る政策につながる可能性があることを示す。
我々は,最も不確実なコンテキストに対する嗜好を反復的に収集するアルゴリズムである$textttAPO$を提案する。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - EM for Mixture of Linear Regression with Clustered Data [6.948976192408852]
分散データにおけるクラスタ構造をどのように活用して学習手法を改善するかについて議論する。
我々は、既知の期待値最大化(EM)法を用いて、依存サンプルの$m$バッチから最大値パラメータを推定する。
構造化データ上のEMが適切であれば、$m$が$eo(n)$になる限り、同じ統計的精度に達するのに$O(1)$しか必要としないことを示す。
論文 参考訳(メタデータ) (2023-08-22T15:47:58Z) - Feature Importance Disparities for Data Bias Investigations [2.184775414778289]
分類器における下流バイアスの1つの原因は、トレーニングデータに存在するバイアスであると広く考えられている。
保護された機能と保護されていない機能からなるデータセットの$X$、結果の$y$、および$X$の$y$を予測するregressor $h$を示す。
機械学習コミュニティは、指数関数的に大きなサブグループクラスでさえ、大きなFID値を持つサブグループを効率的に見つけることができる。
論文 参考訳(メタデータ) (2023-03-03T04:12:04Z) - Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。
各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。
第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - On-Demand Sampling: Learning Optimally from Multiple Distributions [63.20009081099896]
社会と現実世界の考察は、マルチディストリビューション学習パラダイムの台頭につながっている。
これらの学習パラダイムの最適なサンプル複雑性を確立し、このサンプル複雑性を満たすアルゴリズムを提供する。
アルゴリズムの設計と解析は,ゼロサムゲーム解決のためのオンライン学習手法の拡張によって実現されている。
論文 参考訳(メタデータ) (2022-10-22T19:07:26Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Transfer Learning with Multi-source Data: High-dimensional Inference for
Group Distributionally Robust Models [0.0]
マルチソースデータによる学習はモデル一般化可能性の向上に役立ち、多くの重要な統計問題に不可欠なものである。
本稿では,マルチソースデータに対する複数の高次元回帰モデルについて考察する。
我々は,高次元マクシミン効果に対する有効信頼区間を構築するための新しいDenseNetサンプリング手法を考案した。
論文 参考訳(メタデータ) (2020-11-15T16:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。