論文の概要: Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization
- arxiv url: http://arxiv.org/abs/2107.04649v1
- Date: Fri, 9 Jul 2021 19:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:14:33.535760
- Title: Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization
- Title(参考訳): 直線上の精度:分布外と分布内一般化の強い相関について
- Authors: John Miller, Rohan Taori, Aditi Raghunathan, Shiori Sagawa, Pang Wei
Koh, Vaishaal Shankar, Percy Liang, Yair Carmon, Ludwig Schmidt
- Abstract要約: 分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
- 参考スコア(独自算出の注目度): 89.73665256847858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For machine learning systems to be reliable, we must understand their
performance in unseen, out-of-distribution environments. In this paper, we
empirically show that out-of-distribution performance is strongly correlated
with in-distribution performance for a wide range of models and distribution
shifts. Specifically, we demonstrate strong correlations between
in-distribution and out-of-distribution performance on variants of CIFAR-10 &
ImageNet, a synthetic pose estimation task derived from YCB objects, satellite
imagery classification in FMoW-WILDS, and wildlife classification in
iWildCam-WILDS. The strong correlations hold across model architectures,
hyperparameters, training set size, and training duration, and are more precise
than what is expected from existing domain adaptation theory. To complete the
picture, we also investigate cases where the correlation is weaker, for
instance some synthetic distribution shifts from CIFAR-10-C and the tissue
classification dataset Camelyon17-WILDS. Finally, we provide a candidate theory
based on a Gaussian data model that shows how changes in the data covariance
arising from distribution shift can affect the observed correlations.
- Abstract(参考訳): 機械学習システムが信頼できるためには、その性能を無意識で分散しない環境で理解する必要がある。
本稿では,様々なモデルに対する分配性能と分配性能が強く相関していることを実証的に示す。
具体的には,YCBオブジェクトから合成されたポーズ推定タスク,FMoW-WILDSの衛星画像分類,iWildCam-WILDSの野生生物分類,CIFAR-10とImageNetの変種に対する分布内分布と分布外分布性能の相関性を示す。
モデルアーキテクチャ、ハイパーパラメータ、トレーニングセットサイズ、トレーニング期間の間に強い相関関係があり、既存のドメイン適応理論から予想されるよりも正確である。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
最後に,分布シフトによるデータ共分散の変化が観測された相関に与える影響を示すガウスデータモデルに基づく候補理論を提案する。
関連論文リスト
- DeCaf: A Causal Decoupling Framework for OOD Generalization on Node Classification [14.96980804513399]
グラフニューラルネットワーク(GNN)は、分散シフトの影響を受けやすいため、クリティカルドメインの脆弱性やセキュリティ上の問題が発生する。
不変(機能、構造)-ラベルマッピングの学習を目標とする既存の方法は、データ生成プロセスに関する過度に単純化された仮定に依存することが多い。
構造因果モデル(SCM)を用いたより現実的なグラフデータ生成モデルを提案する。
本稿では,非バイアスな特徴ラベルと構造ラベルのマッピングを独立に学習する,カジュアルなデカップリングフレームワークDeCafを提案する。
論文 参考訳(メタデータ) (2024-10-27T00:22:18Z) - Graph Representation Learning via Causal Diffusion for Out-of-Distribution Recommendation [8.826417093212099]
グラフニューラルネットワーク(GNN)ベースのレコメンデーションアルゴリズムは、トレーニングとテストデータは独立して同じ分散空間から引き出されると仮定する。
この仮定は、アウト・オブ・ディストリビューション(OOD)データの存在でしばしば失敗し、パフォーマンスが大幅に低下する。
OODレコメンデーションのための因果拡散によるグラフ表現学習(CausalDiffRec)を提案する。
論文 参考訳(メタデータ) (2024-08-01T11:51:52Z) - Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。
我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。
本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文 参考訳(メタデータ) (2024-05-03T10:05:31Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。