論文の概要: Predictive Heterogeneity: Measures and Applications
- arxiv url: http://arxiv.org/abs/2304.00305v1
- Date: Sat, 1 Apr 2023 12:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:43:24.508994
- Title: Predictive Heterogeneity: Measures and Applications
- Title(参考訳): 予測的異質性:測定と応用
- Authors: Jiashuo Liu and Jiayun Wu and Bo Li and Peng Cui
- Abstract要約: 本稿では,モデルキャパシティと計算制約を考慮した表現可能な予測不均一性を提案する。
ほぼ正しい(PAC)境界を持つ有限データから確実に推定できることを示す。
実験的に、探索された異質性は、所得予測、収量予測、画像分類タスクにおけるサブ人口区分に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 26.85283526483783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As an intrinsic and fundamental property of big data, data heterogeneity
exists in a variety of real-world applications, such as precision medicine,
autonomous driving, financial applications, etc. For machine learning
algorithms, the ignorance of data heterogeneity will greatly hurt the
generalization performance and the algorithmic fairness, since the prediction
mechanisms among different sub-populations are likely to differ from each
other. In this work, we focus on the data heterogeneity that affects the
prediction of machine learning models, and firstly propose the \emph{usable
predictive heterogeneity}, which takes into account the model capacity and
computational constraints. We prove that it can be reliably estimated from
finite data with probably approximately correct (PAC) bounds. Additionally, we
design a bi-level optimization algorithm to explore the usable predictive
heterogeneity from data. Empirically, the explored heterogeneity provides
insights for sub-population divisions in income prediction, crop yield
prediction and image classification tasks, and leveraging such heterogeneity
benefits the out-of-distribution generalization performance.
- Abstract(参考訳): ビッグデータの本質的かつ基本的な特性として、データの多様性は、精密医療、自動運転、金融アプリケーションなど、さまざまな現実世界のアプリケーションに存在する。
機械学習アルゴリズムでは、異なるサブ人口間の予測機構が互いに異なる可能性が高いため、データの不均一性の無知は、一般化性能とアルゴリズム的公平性を著しく損なう。
本研究では,機械学習モデルの予測に影響を及ぼすデータの不均一性に着目し,まずモデル容量と計算量制約を考慮に入れた \emph{usable predict heterogeneity} を提案する。
我々は、おそらくほぼ正しい(pac)境界を持つ有限データから確実に推定できることを証明する。
さらに,データから利用可能な予測の不均一性を調べるために,二値最適化アルゴリズムを設計する。
経験的に、調査された異種性は、所得予測、作物収量予測および画像分類タスクにおけるサブ人口区分に対する洞察を提供し、そのような異種性を活用することは、分配の一般化性能に恩恵をもたらす。
関連論文リスト
- Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups [0.0]
ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
論文 参考訳(メタデータ) (2023-12-12T22:49:24Z) - A Federated Learning-based Industrial Health Prognostics for
Heterogeneous Edge Devices using Matched Feature Extraction [16.337207503536384]
本稿では,特徴類似性マッチングパラメータアグリゲーションアルゴリズムを用いたFL型健康予後モデルを提案する。
提案手法は, 健康状態推定と生活寿命推定において, 44.5%, 39.3%の精度向上を達成できることを示す。
論文 参考訳(メタデータ) (2023-05-13T07:20:31Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文 参考訳(メタデータ) (2022-05-03T13:38:58Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - General stochastic separation theorems with optimal bounds [68.8204255655161]
分離性の現象が明らかになり、機械学習で人工知能(AI)システムのエラーを修正し、AI不安定性を分析するために使用された。
エラーやエラーのクラスタは、残りのデータから分離することができる。
AIシステムを修正する能力は、それに対する攻撃の可能性も開き、高次元性は、同じ分離性によって引き起こされる脆弱性を誘発する。
論文 参考訳(メタデータ) (2020-10-11T13:12:41Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Learning Overlapping Representations for the Estimation of
Individualized Treatment Effects [97.42686600929211]
観測データから代替案の可能性を推定することは難しい問題である。
入力のドメイン不変表現を学習するアルゴリズムは、しばしば不適切であることを示す。
我々は,様々なベンチマークデータセットの最先端性を大幅に向上させる,ディープカーネル回帰アルゴリズムと後続正規化フレームワークを開発した。
論文 参考訳(メタデータ) (2020-01-14T12:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。