論文の概要: Change is Hard: A Closer Look at Subpopulation Shift
- arxiv url: http://arxiv.org/abs/2302.12254v1
- Date: Thu, 23 Feb 2023 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 13:55:30.587712
- Title: Change is Hard: A Closer Look at Subpopulation Shift
- Title(参考訳): 変化は難しい:サブ人口シフトをよく見る
- Authors: Yuzhe Yang, Haoran Zhang, Dina Katabi, Marzyeh Ghassemi
- Abstract要約: 本稿では,部分群における共通シフトを識別し,説明する統一的なフレームワークを提案する。
次に、ビジョン、言語、医療領域の12の現実世界のデータセットで評価された20の最先端アルゴリズムのベンチマークを作成します。
- 参考スコア(独自算出の注目度): 38.18870600235965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models often perform poorly on subgroups that are
underrepresented in the training data. Yet, little is understood on the
variation in mechanisms that cause subpopulation shifts, and how algorithms
generalize across such diverse shifts at scale. In this work, we provide a
fine-grained analysis of subpopulation shift. We first propose a unified
framework that dissects and explains common shifts in subgroups. We then
establish a comprehensive benchmark of 20 state-of-the-art algorithms evaluated
on 12 real-world datasets in vision, language, and healthcare domains. With
results obtained from training over 10,000 models, we reveal intriguing
observations for future progress in this space. First, existing algorithms only
improve subgroup robustness over certain types of shifts but not others.
Moreover, while current algorithms rely on group-annotated validation data for
model selection, we find that a simple selection criterion based on worst-class
accuracy is surprisingly effective even without any group information. Finally,
unlike existing works that solely aim to improve worst-group accuracy (WGA), we
demonstrate the fundamental tradeoff between WGA and other important metrics,
highlighting the need to carefully choose testing metrics. Code and data are
available at: https://github.com/YyzHarry/SubpopBench.
- Abstract(参考訳): 機械学習モデルは、トレーニングデータに不足しているサブグループでよく機能しない。
しかし、サブポピュレーションシフトを引き起こすメカニズムのばらつきや、どのようにアルゴリズムがこのような多様なシフトを大規模に一般化するかについては、ほとんど理解されていない。
本研究では,サブポピュレーションシフトの微粒化解析を行う。
まず,サブグループにおける共通シフトを分類し,説明する統一フレームワークを提案する。
次に,視覚領域,言語領域,医療領域の12の現実世界データセットで評価された20の最先端アルゴリズムの総合ベンチマークを構築した。
1万モデル以上のトレーニングから得られた結果から,この領域における今後の進歩に対する興味深い観測結果が得られた。
まず、既存のアルゴリズムはある種のシフトよりも部分群ロバスト性を改善するが、他のアルゴリズムは改善しない。
また,現在のアルゴリズムはモデル選択のためのグループ指定検証データに依存しているが,最悪のクラス精度に基づく単純な選択基準は,グループ情報なしでも驚くほど有効であることがわかった。
最後に、最悪のグループ精度(WGA)の改善を目的とする既存の作業とは異なり、WGAと他の重要なメトリクスとの根本的なトレードオフを示し、テストメトリクスを慎重に選択する必要性を強調します。
コードとデータは、https://github.com/yyzharry/subpopbenchで入手できる。
関連論文リスト
- OOD-Chameleon: Is Algorithm Selection for OOD Generalization Learnable? [18.801143204410913]
OOD一般化のためのアルゴリズム選択のタスクを形式化し、学習によってアプローチできるかどうかを検討する。
我々は,OOD-Chameleonと呼ばれる手法を提案し,そのタスクを候補アルゴリズムに対する教師付き分類として扱う。
データセットの特徴からアルゴリズムの相対的な性能を予測するためにモデルを訓練する。
論文 参考訳(メタデータ) (2024-10-03T17:52:42Z) - The Group Robustness is in the Details: Revisiting Finetuning under Spurious Correlations [8.844894807922902]
現代の機械学習モデルは、素早い相関に過度に依存する傾向がある。
本稿では,最短群精度における微調整モデルの意外かつニュアンスな挙動を同定する。
以上の結果より,群強靭性を有する現代ファインチュードモデルの微妙な相互作用が以前よりも顕著に示された。
論文 参考訳(メタデータ) (2024-07-19T00:34:03Z) - Mind the GAP: Improving Robustness to Subpopulation Shifts with Group-Aware Priors [46.03963664373476]
我々は、サブポピュレーションシフトの下でよく一般化するモデルを明示的に好むニューラルネットワークパラメータ上で、GAP(group-aware prior)分布のファミリーを開発する。
我々は、以前トレーニングされた非ロバストモデルの最終層のみをトレーニングしても、GAPによるトレーニングが最先端のパフォーマンスをもたらすことを実証する。
論文 参考訳(メタデータ) (2024-03-14T21:00:26Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Outlier-Robust Group Inference via Gradient Space Clustering [50.87474101594732]
既存のメソッドは、最悪のグループのパフォーマンスを改善することができるが、それらは、しばしば高価で入手できないグループアノテーションを必要とする。
モデルパラメータの勾配の空間にデータをクラスタリングすることで,アウトレーヤの存在下でグループアノテーションを学習する問題に対処する。
そこで我々は,DBSCANのような標準クラスタリング手法に適合するように,マイノリティグループや外れ値に関する情報を保存しながら,勾配空間内のデータがより単純な構造を持つことを示す。
論文 参考訳(メタデータ) (2022-10-13T06:04:43Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - A Fine-Grained Analysis on Distribution Shift [24.084676204709723]
本稿では,分布変化の微粒化解析を可能にするフレームワークを提案する。
合成と実世界の両方のデータセットにまたがる5つのカテゴリにグループ分けされた19の異なる手法を評価する。
私たちのフレームワークは簡単に拡張でき、新しいメソッド、シフト、データセットを含めることができます。
論文 参考訳(メタデータ) (2021-10-21T17:57:08Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - SetConv: A New Approach for Learning from Imbalanced Data [29.366843553056594]
集合畳み込み操作とエピソード学習戦略を提案し,各クラスに1つの代表を抽出する。
提案アルゴリズムは入力順序に関わらず置換不変であることを示す。
論文 参考訳(メタデータ) (2021-04-03T22:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。