論文の概要: Multiply Robust Estimation for Local Distribution Shifts with Multiple
Domains
- arxiv url: http://arxiv.org/abs/2402.14145v1
- Date: Wed, 21 Feb 2024 22:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:14:55.567065
- Title: Multiply Robust Estimation for Local Distribution Shifts with Multiple
Domains
- Title(参考訳): 多重領域を用いた局所分布シフトの多重ロバスト推定
- Authors: Steven Wilkins-Reeves, Xu Chen, Qi Ma, Christine Agarwal, Aude
Hofleitner
- Abstract要約: 我々は、全人口の複数のセグメントにまたがってデータ分布が変化するシナリオに焦点を当てる。
そこで本研究では,各セグメントのモデル性能を改善するために,二段階多重ロバスト推定法を提案する。
- 参考スコア(独自算出の注目度): 10.116693247301423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distribution shifts are ubiquitous in real-world machine learning
applications, posing a challenge to the generalization of models trained on one
data distribution to another. We focus on scenarios where data distributions
vary across multiple segments of the entire population and only make local
assumptions about the differences between training and test (deployment)
distributions within each segment. We propose a two-stage multiply robust
estimation method to improve model performance on each individual segment for
tabular data analysis. The method involves fitting a linear combination of the
based models, learned using clusters of training data from multiple segments,
followed by a refinement step for each segment. Our method is designed to be
implemented with commonly used off-the-shelf machine learning models. We
establish theoretical guarantees on the generalization bound of the method on
the test risk. With extensive experiments on synthetic and real datasets, we
demonstrate that the proposed method substantially improves over existing
alternatives in prediction accuracy and robustness on both regression and
classification tasks. We also assess its effectiveness on a user city
prediction dataset from a large technology company.
- Abstract(参考訳): 分散シフトは、現実世界の機械学習アプリケーションではユビキタスであり、あるデータディストリビューションでトレーニングされたモデルの一般化に挑戦している。
データ分布が全人口の複数のセグメントで異なるシナリオに注目し、各セグメント内のトレーニングとテスト(デプロイ)の分布の違いについてのみ局所的な仮定を行う。
グラフデータ解析において各セグメントのモデル性能を改善するための2段階多重ロバスト推定法を提案する。
この方法は、複数のセグメントからのトレーニングデータのクラスタを用いて学習したベースモデルの線形結合を、各セグメントに対する改良ステップとしてフィッティングする。
本手法は市販の機械学習モデルを用いて実装されている。
テストリスクに対する方法の一般化境界に関する理論的保証を確立する。
合成データと実データに関する広範囲な実験により,提案手法は回帰と分類タスクの両方において,予測精度とロバスト性において既存の代替法よりも大幅に改善できることを実証した。
また,大規模テクノロジー企業のユーザシティ予測データセット上での有効性を評価する。
関連論文リスト
- Distributionally Robust Safe Sample Elimination under Covariate Shift [16.85444622474742]
1つのトレーニングデータセットを使用して、わずかに異なるデータ分布をまたいだ複数のモデルをトレーニングする、機械学習のセットアップについて検討する。
分散ロバスト(DR)最適化と安全なサンプルスクリーニング(SSS)を組み合わせたDRSSS法を提案する。
この方法の主な利点は、縮小データセットでトレーニングされたモデルが、可能なすべての異なる環境において、フルデータセットでトレーニングされたモデルと同等に実行されることである。
論文 参考訳(メタデータ) (2024-06-10T01:46:42Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - An Information-Theoretic Approach for Estimating Scenario Generalization
in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。
インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。
提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文 参考訳(メタデータ) (2022-11-02T01:39:30Z) - Decoupling Predictions in Distributed Learning for Multi-Center Left
Atrial MRI Segmentation [20.20518948616193]
本稿では,2つのグループ間のギャップを埋める分散学習のフレームワークを提案する。
左房左房左房 (LA) MRI 区分けを行った結果, 総括的データと局所的データの両方において, 既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-10T08:35:42Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z) - Optimal Ensemble Construction for Multi-Study Prediction with
Applications to COVID-19 Excess Mortality Estimation [7.02598981483736]
マルチスタディ・アンサンブルは、研究固有のモデルに適合し、アンサンブル重みを別々に推定する2段階戦略を用いる。
このアプローチは、モデル適合段階でのアンサンブル特性を無視し、効率を損なう可能性がある。
パンデミックの開始前にはほとんどデータが入手できない場合、他の国のデータを活用することで、予測精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-09-19T16:52:41Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective [98.70226503904402]
現実世界のオブジェクトの周波数は、しばしば電力法則に従い、長い尾のクラス分布を持つデータセット間のミスマッチを引き起こす。
メタラーニング手法を用いて,クラス条件分布の違いを明示的に推定し,古典的なクラスバランス学習を強化することを提案する。
論文 参考訳(メタデータ) (2020-03-24T11:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。