論文の概要: Distributionally Robust Machine Learning with Multi-source Data
- arxiv url: http://arxiv.org/abs/2309.02211v3
- Date: Sat, 21 Dec 2024 07:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:11.537621
- Title: Distributionally Robust Machine Learning with Multi-source Data
- Title(参考訳): マルチソースデータを用いた分散ロバスト機械学習
- Authors: Zhenyu Wang, Peter Bühlmann, Zijian Guo,
- Abstract要約: 対象分布のクラスに対する説明分散に関する逆報酬を最適化するために,群分布に頑健な予測モデルを導入する。
従来の経験的リスク最小化と比較して,提案した頑健な予測モデルでは,分布シフトを伴う対象集団の予測精度が向上する。
ランダムな森林とニューラルネットワークをベースラーニングアルゴリズムとして用いたシミュレーションおよび実データに対して,提案したグループ分散ロバストな手法の性能を示す。
- 参考スコア(独自算出の注目度): 9.359714425373616
- License:
- Abstract: Classical machine learning methods may lead to poor prediction performance when the target distribution differs from the source populations. This paper utilizes data from multiple sources and introduces a group distributionally robust prediction model defined to optimize an adversarial reward about explained variance with respect to a class of target distributions. Compared to classical empirical risk minimization, the proposed robust prediction model improves the prediction accuracy for target populations with distribution shifts. We show that our group distributionally robust prediction model is a weighted average of the source populations' conditional outcome models. We leverage this key identification result to robustify arbitrary machine learning algorithms, including, for example, random forests and neural networks. We devise a novel bias-corrected estimator to estimate the optimal aggregation weight for general machine-learning algorithms and demonstrate its improvement in the convergence rate. Our proposal can be seen as a distributionally robust federated learning approach that is computationally efficient and easy to implement using arbitrary machine learning base algorithms, satisfies some privacy constraints, and has a nice interpretation of different sources' importance for predicting a given target covariate distribution. We demonstrate the performance of our proposed group distributionally robust method on simulated and real data with random forests and neural networks as base-learning algorithms.
- Abstract(参考訳): 古典的な機械学習手法は、ターゲット分布がソース集団と異なる場合、予測性能が低下する可能性がある。
本稿では,複数のソースから得られるデータを活用し,対象分布のクラスに対する説明分散に関する対角的報酬を最適化するために定義された群分布的堅牢な予測モデルを提案する。
従来の経験的リスク最小化と比較して,提案した頑健な予測モデルでは,分布シフトを伴う対象集団の予測精度が向上する。
本研究では,本集団の分布的ロバストな予測モデルが,源集団の条件付き結果モデルの重み付け平均であることを示す。
この重要な識別結果を利用して、ランダムな森林やニューラルネットワークなど、任意の機械学習アルゴリズムを堅牢化します。
一般的な機械学習アルゴリズムの最適集約重み付けを推定し、収束率の改善を示す新しいバイアス補正推定器を考案する。
提案手法は,任意の機械学習ベースアルゴリズムを用いて計算効率が高く,実装が容易で,いくつかのプライバシー制約を満たすとともに,対象とする共変量分布を予測する上での異なるソースの重要性をうまく解釈できる,分散的に堅牢なフェデレーション学習手法であると考えられる。
ランダムな森林とニューラルネットワークをベースラーニングアルゴリズムとして用いたシミュレーションおよび実データに対して,提案したグループ分散ロバストな手法の性能を示す。
関連論文リスト
- Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Confidence estimation of classification based on the distribution of the
neural network output layer [4.529188601556233]
現実の世界における予測モデルの適用を防ぐための最も一般的な問題の1つは一般化の欠如である。
ニューラルネットワーク分類モデルにより生成された特定の予測の不確かさを推定する新しい手法を提案する。
提案手法は,この予測に対応するロジット値の分布に基づいて,特定の予測の信頼性を推定する。
論文 参考訳(メタデータ) (2022-10-14T12:32:50Z) - Aggregating distribution forecasts from deep ensembles [0.0]
本稿では,ディープアンサンブルのための一般的な量子集約フレームワークを提案する。
深層アンサンブルからの予測分布を組み合わせることで,予測性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:42:51Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Robustness via Cross-Domain Ensembles [0.5801044612920816]
本稿では,ニューラルネットワークの予測をトレーニングデータ分布からのシフトに対して頑健にする手法を提案する。
提案手法は,多種多様なキューを用いて予測を行い,それらを1つの強い予測にまとめる手法である。
論文 参考訳(メタデータ) (2021-03-19T17:28:03Z) - Uncertainty Estimation and Sample Selection for Crowd Counting [87.29137075538213]
予測された密度マップに関連する不確実性値とともに,群衆密度マップを予測できる画像に基づく群集カウント手法を提案する。
既存のクラウドカウント手法に比べて,提案手法の重要な利点は,予測の不確かさを定量化できることである。
サンプル選択戦略は、ソースドメイン上でトレーニングされたカウントネットワークをターゲットドメインに適応させるために必要なラベル付きデータの量を劇的に削減することを示す。
論文 参考訳(メタデータ) (2020-09-30T03:40:07Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Scalable Approximate Inference and Some Applications [2.6541211006790983]
本稿では,近似推論のための新しいフレームワークを提案する。
提案する4つのアルゴリズムは,Steinの手法の最近の計算進歩に動機付けられている。
シミュレーションおよび実データを用いた結果から,アルゴリズムの統計的効率と適用性を示す。
論文 参考訳(メタデータ) (2020-03-07T04:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。