論文の概要: Towards Group Robustness in the presence of Partial Group Labels
- arxiv url: http://arxiv.org/abs/2201.03668v1
- Date: Mon, 10 Jan 2022 22:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 20:44:00.331035
- Title: Towards Group Robustness in the presence of Partial Group Labels
- Title(参考訳): 部分群ラベルの存在下でのグループロバスト性を目指して
- Authors: Vishnu Suresh Lokhande, Kihyuk Sohn, Jinsung Yoon, Madeleine Udell,
Chen-Yu Lee and Tomas Pfister
- Abstract要約: 入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 61.33713547766866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning invariant representations is an important requirement when training
machine learning models that are driven by spurious correlations in the
datasets. These spurious correlations, between input samples and the target
labels, wrongly direct the neural network predictions resulting in poor
performance on certain groups, especially the minority groups. Robust training
against these spurious correlations requires the knowledge of group membership
for every sample. Such a requirement is impractical in situations where the
data labeling efforts for minority or rare groups are significantly laborious
or where the individuals comprising the dataset choose to conceal sensitive
information. On the other hand, the presence of such data collection efforts
results in datasets that contain partially labeled group information. Recent
works have tackled the fully unsupervised scenario where no labels for groups
are available. Thus, we aim to fill the missing gap in the literature by
tackling a more realistic setting that can leverage partially available
sensitive or group information during training. First, we construct a
constraint set and derive a high probability bound for the group assignment to
belong to the set. Second, we propose an algorithm that optimizes for the
worst-off group assignments from the constraint set. Through experiments on
image and tabular datasets, we show improvements in the minority group's
performance while preserving overall aggregate accuracy across groups.
- Abstract(参考訳): データセットの急激な相関によって駆動される機械学習モデルをトレーニングする場合、不変表現の学習は重要な要件である。
入力サンプルとターゲットラベルの間のこれらの急激な相関関係は、ニューラルネットワークの予測を誤って指示し、特定のグループ、特に少数グループのパフォーマンスが低下する。
これらの急激な相関に対するロバストな訓練は、全てのサンプルに対するグループメンバーシップの知識を必要とする。
このような要件は、マイノリティグループやレアグループに対するデータラベリング努力が著しく手間がかかる状況や、データセットを構成する個人が機密情報を隠すことを選択する状況において、現実的ではない。
一方で、このようなデータ収集の取り組みの存在は、部分的なラベル付きグループ情報を含むデータセットをもたらす。
最近の研究は、グループのラベルが利用できない完全に教師なしのシナリオに取り組んでいる。
そこで,本研究では,学習中に部分的に利用可能なセンシティブな情報やグループ情報を活用できる,より現実的な設定に取り組むことで,文学の欠如したギャップを埋めることを目的とする。
まず、制約集合を構築し、その集合に属する群割り当てに対して有界な高確率を導出する。
次に,制約集合から最悪のグループ割り当てを最適化するアルゴリズムを提案する。
画像および表型データセットを用いた実験により,グループ全体の集計精度を維持しつつ,マイノリティグループのパフォーマンスを改善した。
関連論文リスト
- Trained Models Tell Us How to Make Them Robust to Spurious Correlation without Group Annotation [3.894771553698554]
経験的リスク最小化(ERM)モデルは、ターゲットと高い刺激的な相関を持つ属性に依存する傾向がある。
これにより、これらの属性を欠いた未表現(または'マイナー')グループのパフォーマンスを低下させることができる。
本稿では,環境に基づく検証と損失に基づくサンプリング(EVaLS)を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:17:44Z) - Outlier-Robust Group Inference via Gradient Space Clustering [50.87474101594732]
既存のメソッドは、最悪のグループのパフォーマンスを改善することができるが、それらは、しばしば高価で入手できないグループアノテーションを必要とする。
モデルパラメータの勾配の空間にデータをクラスタリングすることで,アウトレーヤの存在下でグループアノテーションを学習する問題に対処する。
そこで我々は,DBSCANのような標準クラスタリング手法に適合するように,マイノリティグループや外れ値に関する情報を保存しながら,勾配空間内のデータがより単純な構造を持つことを示す。
論文 参考訳(メタデータ) (2022-10-13T06:04:43Z) - Take One Gram of Neural Features, Get Enhanced Group Robustness [23.541213868620837]
経験的リスク最小化で訓練された機械学習モデルの予測性能は、分散シフト下で大幅に低下する可能性がある。
本稿では,識別モデルの抽出した特徴の文法行列に基づいて,トレーニングデータセットをグループに分割する。
このアプローチは、ERMに対するグループロバスト性を向上するだけでなく、最近のすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2022-08-26T12:34:55Z) - The Group Loss++: A deeper look into group loss for deep metric learning [65.19665861268574]
グループ損失 (Group Loss) は、グループの全サンプルに埋め込まれた類似性を強制する微分可能なラベルプロパゲーション法に基づく損失関数である。
4つのデータセットでクラスタリングと画像検索の最先端結果を示し、2人の再識別データセットで競合結果を示す。
論文 参考訳(メタデータ) (2022-04-04T14:09:58Z) - Addressing Missing Sources with Adversarial Support-Matching [8.53946780558779]
そこで本研究では,データ内の2段階階層の2段階に,データの欠如が関係しているシナリオについて検討する。
アルゴリズム的公正性から保護された群の概念に触発され、この第2階層によって彫られた分割を「部分群」と呼ぶ。
私たちは、サブグループに不変な表現を学ぶために、"deployment set"と呼ばれる追加で多様だがラベルなしのデータセットを使用します。
論文 参考訳(メタデータ) (2022-03-24T16:19:19Z) - BARACK: Partially Supervised Group Robustness With Guarantees [29.427365308680717]
ニューラルネットワーク上での最悪のグループパフォーマンスを改善するためのフレームワークであるBARACKを提案する。
トレーニングデータの欠落したグループラベルを予測するためにモデルをトレーニングし、その上で、これらの予測されたグループラベルを頑健な最適化目標として使用する。
実験的な手法では, 1-33%のポイントにグループラベルがある場合でも, グループ情報を使用しないベースラインよりも優れている。
論文 参考訳(メタデータ) (2021-12-31T23:05:21Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Contrastive Examples for Addressing the Tyranny of the Majority [83.93825214500131]
我々は,グループメンバーシップを介在する,オリジナルのデータセットと新たなデータポイントからなるバランスの取れたトレーニングデータセットを作成することを提案する。
コントラッシブ・サンプル(英語版)と呼ばれるこれらのデータポイントを学習するための強力なツールとして、現在の生成的敵ネットワークが重要であることを示す。
論文 参考訳(メタデータ) (2020-04-14T14:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。