論文の概要: Beyond Discrepancy: A Closer Look at the Theory of Distribution Shift
- arxiv url: http://arxiv.org/abs/2405.19156v1
- Date: Wed, 29 May 2024 15:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:41:25.754019
- Title: Beyond Discrepancy: A Closer Look at the Theory of Distribution Shift
- Title(参考訳): 分散性を超えて - 分散シフトの理論を詳しく見る
- Authors: Robi Bhattacharjee, Nick Rittler, Kamalika Chaudhuri,
- Abstract要約: この研究は、ソースからターゲット分布への分類器の分布シフトの理論を詳しく調べる。
対象からラベル付けされていないデータだけで十分である場合と,ラベル付けされたターゲットデータが必要な場合を示す。
いずれの場合も、我々は大規模なサンプル状態において厳密な理論的保証を提供する。
- 参考スコア(独自算出の注目度): 27.99789694038377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine learning models appear to deploy effortlessly under distribution shift, and perform well on a target distribution that is considerably different from the training distribution. Yet, learning theory of distribution shift bounds performance on the target distribution as a function of the discrepancy between the source and target, rarely guaranteeing high target accuracy. Motivated by this gap, this work takes a closer look at the theory of distribution shift for a classifier from a source to a target distribution. Instead of relying on the discrepancy, we adopt an Invariant-Risk-Minimization (IRM)-like assumption connecting the distributions, and characterize conditions under which data from a source distribution is sufficient for accurate classification of the target. When these conditions are not met, we show when only unlabeled data from the target is sufficient, and when labeled target data is needed. In all cases, we provide rigorous theoretical guarantees in the large sample regime.
- Abstract(参考訳): 多くの機械学習モデルは、分散シフトの下で努力的にデプロイし、トレーニングディストリビューションとはかなり異なるターゲットディストリビューションでうまく動作しているように見える。
しかし、分布シフトの学習理論は、ソースとターゲットの相違の関数として、ターゲット分布に性能を限定し、高い目標精度を保証することは滅多にない。
このギャップによって動機づけられたこの研究は、ソースからターゲット分布への分類器の分布シフトの理論をより深く研究する。
差分に頼らず、分布を接続する不変リスク最小化(IRM)のような仮定を採用し、ソース分布からのデータがターゲットの正確な分類に十分である条件を特徴付ける。
これらの条件が満たされていない場合、ターゲットからのラベル付けされていないデータだけで十分であり、ラベル付けされたターゲットデータが必要な場合を示す。
いずれの場合も、我々は大規模なサンプル状態において厳密な理論的保証を提供する。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Harnessing the Power of Vicinity-Informed Analysis for Classification under Covariate Shift [9.530897053573186]
転送学習は、ソース分布からのデータを活用することにより、ターゲット分布の予測精度を向上させる。
本稿では,周辺情報,すなわちデータポイントの局所的構造を利用した新しい異種性尺度を提案する。
提案手法を用いて過大な誤差を特徴付けるとともに,従来の手法と比較して高速あるいは競合的な収束率を示す。
論文 参考訳(メタデータ) (2024-05-27T07:55:27Z) - Restricted Generative Projection for One-Class Classification and
Anomaly Detection [31.173234437065464]
トレーニングデータの未知分布(正規分布)を既知の目標分布に変換するためのマッピングを学習する。
シンプルさは、配布から簡単にサンプルを採取できるようにすることです。
コンパクト性は、正規データと異常データとの判定境界が明確であることを保証することである。
その情報性は、変換されたデータが元のデータの重要な情報を確実に保持することである。
論文 参考訳(メタデータ) (2023-07-09T04:59:10Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z) - Mining Label Distribution Drift in Unsupervised Domain Adaptation [78.2452946757045]
本稿では,データ分散のシフトとラベル分布のドリフトを協調的に処理するためのラベル分布マッチング・ドメイン・アドバイザリアル・ネットワーク(LMDAN)を提案する。
実験により, LMDANはラベル分布のドリフトに優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-06-16T23:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。