論文の概要: Multiply Robust Estimation for Local Distribution Shifts with Multiple
Domains
- arxiv url: http://arxiv.org/abs/2402.14145v1
- Date: Wed, 21 Feb 2024 22:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:14:55.567065
- Title: Multiply Robust Estimation for Local Distribution Shifts with Multiple
Domains
- Title(参考訳): 多重領域を用いた局所分布シフトの多重ロバスト推定
- Authors: Steven Wilkins-Reeves, Xu Chen, Qi Ma, Christine Agarwal, Aude
Hofleitner
- Abstract要約: 我々は、全人口の複数のセグメントにまたがってデータ分布が変化するシナリオに焦点を当てる。
そこで本研究では,各セグメントのモデル性能を改善するために,二段階多重ロバスト推定法を提案する。
- 参考スコア(独自算出の注目度): 10.116693247301423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distribution shifts are ubiquitous in real-world machine learning
applications, posing a challenge to the generalization of models trained on one
data distribution to another. We focus on scenarios where data distributions
vary across multiple segments of the entire population and only make local
assumptions about the differences between training and test (deployment)
distributions within each segment. We propose a two-stage multiply robust
estimation method to improve model performance on each individual segment for
tabular data analysis. The method involves fitting a linear combination of the
based models, learned using clusters of training data from multiple segments,
followed by a refinement step for each segment. Our method is designed to be
implemented with commonly used off-the-shelf machine learning models. We
establish theoretical guarantees on the generalization bound of the method on
the test risk. With extensive experiments on synthetic and real datasets, we
demonstrate that the proposed method substantially improves over existing
alternatives in prediction accuracy and robustness on both regression and
classification tasks. We also assess its effectiveness on a user city
prediction dataset from a large technology company.
- Abstract(参考訳): 分散シフトは、現実世界の機械学習アプリケーションではユビキタスであり、あるデータディストリビューションでトレーニングされたモデルの一般化に挑戦している。
データ分布が全人口の複数のセグメントで異なるシナリオに注目し、各セグメント内のトレーニングとテスト(デプロイ)の分布の違いについてのみ局所的な仮定を行う。
グラフデータ解析において各セグメントのモデル性能を改善するための2段階多重ロバスト推定法を提案する。
この方法は、複数のセグメントからのトレーニングデータのクラスタを用いて学習したベースモデルの線形結合を、各セグメントに対する改良ステップとしてフィッティングする。
本手法は市販の機械学習モデルを用いて実装されている。
テストリスクに対する方法の一般化境界に関する理論的保証を確立する。
合成データと実データに関する広範囲な実験により,提案手法は回帰と分類タスクの両方において,予測精度とロバスト性において既存の代替法よりも大幅に改善できることを実証した。
また,大規模テクノロジー企業のユーザシティ予測データセット上での有効性を評価する。
関連論文リスト
- Distributionally Robust Machine Learning with Multi-source Data [6.383451076043423]
対象分布のクラスに対する説明分散に関する逆報酬を最適化するために,群分布に頑健な予測モデルを導入する。
従来の経験的リスク最小化と比較して,提案した頑健な予測モデルでは,分布シフトを伴う対象集団の予測精度が向上する。
ランダムな森林とニューラルネットワークをベースラーニングアルゴリズムとして用いたシミュレーションおよび実データに対して,提案したグループ分散ロバストな手法の性能を示す。
論文 参考訳(メタデータ) (2023-09-05T13:19:40Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - An Information-Theoretic Approach for Estimating Scenario Generalization
in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。
インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。
提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文 参考訳(メタデータ) (2022-11-02T01:39:30Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z) - Optimal Ensemble Construction for Multi-Study Prediction with
Applications to COVID-19 Excess Mortality Estimation [7.02598981483736]
マルチスタディ・アンサンブルは、研究固有のモデルに適合し、アンサンブル重みを別々に推定する2段階戦略を用いる。
このアプローチは、モデル適合段階でのアンサンブル特性を無視し、効率を損なう可能性がある。
パンデミックの開始前にはほとんどデータが入手できない場合、他の国のデータを活用することで、予測精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-09-19T16:52:41Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。