論文の概要: Addressing Missing Sources with Adversarial Support-Matching
- arxiv url: http://arxiv.org/abs/2203.13154v1
- Date: Thu, 24 Mar 2022 16:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 12:59:46.465111
- Title: Addressing Missing Sources with Adversarial Support-Matching
- Title(参考訳): 逆支援マッチングによる欠落源の対応
- Authors: Thomas Kehrenberg, Myles Bartlett, Viktoriia Sharmanska, Novi
Quadrianto
- Abstract要約: そこで本研究では,データ内の2段階階層の2段階に,データの欠如が関係しているシナリオについて検討する。
アルゴリズム的公正性から保護された群の概念に触発され、この第2階層によって彫られた分割を「部分群」と呼ぶ。
私たちは、サブグループに不変な表現を学ぶために、"deployment set"と呼ばれる追加で多様だがラベルなしのデータセットを使用します。
- 参考スコア(独自算出の注目度): 8.53946780558779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When trained on diverse labeled data, machine learning models have proven
themselves to be a powerful tool in all facets of society. However, due to
budget limitations, deliberate or non-deliberate censorship, and other problems
during data collection and curation, the labeled training set might exhibit a
systematic shortage of data for certain groups. We investigate a scenario in
which the absence of certain data is linked to the second level of a two-level
hierarchy in the data. Inspired by the idea of protected groups from
algorithmic fairness, we refer to the partitions carved by this second level as
"subgroups"; we refer to combinations of subgroups and classes, or leaves of
the hierarchy, as "sources". To characterize the problem, we introduce the
concept of classes with incomplete subgroup support. The representational bias
in the training set can give rise to spurious correlations between the classes
and the subgroups which render standard classification models ungeneralizable
to unseen sources. To overcome this bias, we make use of an additional, diverse
but unlabeled dataset, called the "deployment set", to learn a representation
that is invariant to subgroup. This is done by adversarially matching the
support of the training and deployment sets in representation space. In order
to learn the desired invariance, it is paramount that the sets of samples
observed by the discriminator are balanced by class; this is easily achieved
for the training set, but requires using semi-supervised clustering for the
deployment set. We demonstrate the effectiveness of our method with experiments
on several datasets and variants of the problem.
- Abstract(参考訳): さまざまなラベル付きデータで訓練された機械学習モデルは、社会のあらゆる面において強力なツールであることが証明されている。
しかし、予算制限、意図的または非意図的な検閲、およびデータ収集とキュレーションにおけるその他の問題のために、ラベル付きトレーニングセットは、特定のグループに対して体系的なデータ不足を示す可能性がある。
そこで本研究では,データ内の2段階階層の2段階に,データの欠如が関係しているシナリオについて検討する。
アルゴリズム的公平性から保護されたグループの概念に着想を得て、この2番目のレベルで彫られた分割を「サブグループ」と呼び、サブグループとクラスの組み合わせ、あるいは階層の葉を「ソース」と呼ぶ。
この問題を特徴付けるために,不完全部分群をサポートするクラスの概念を導入する。
トレーニングセットの表現バイアスは、クラスとサブグループの間のスパーラスな相関を生じさせ、標準分類モデルが見当たらないソースに一般化できないようにする。
このバイアスを克服するために、サブグループに不変な表現を学ぶために、"deployment set"と呼ばれる追加で多様だがラベルなしのデータセットを使用します。
これは、対向的にトレーニングとデプロイメントセットのサポートを表現空間で一致させることによって行われる。
所望の不変性を学ぶためには、判別器が観測するサンプルのセットがクラスによってバランスをとることが最重要であり、トレーニングセットでは容易に達成されるが、デプロイメントセットには半教師付きクラスタリングを使用する必要がある。
本手法の有効性をいくつかのデータセットと変種を用いた実験により示す。
関連論文リスト
- Leveraging Structure for Improved Classification of Grouped Biased Data [8.121462458089143]
データポイントが自然にグループ化されるアプリケーションに対する半教師付きバイナリ分類を検討する。
我々は、この構造を明示的に活用し、最適、グループ対応、確率出力の分類器を学習する半教師付きアルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-12-07T15:18:21Z) - Outlier-Robust Group Inference via Gradient Space Clustering [50.87474101594732]
既存のメソッドは、最悪のグループのパフォーマンスを改善することができるが、それらは、しばしば高価で入手できないグループアノテーションを必要とする。
モデルパラメータの勾配の空間にデータをクラスタリングすることで,アウトレーヤの存在下でグループアノテーションを学習する問題に対処する。
そこで我々は,DBSCANのような標準クラスタリング手法に適合するように,マイノリティグループや外れ値に関する情報を保存しながら,勾配空間内のデータがより単純な構造を持つことを示す。
論文 参考訳(メタデータ) (2022-10-13T06:04:43Z) - Improved Group Robustness via Classifier Retraining on Independent
Splits [6.930560177764658]
群分布的ロバスト最適化は、強力な最悪群性能を持つ学習モデルのベースラインとして広く使われている。
本稿では,トレーニングデータの独立分割に基づくリトレーニングのアイデアに基づいて,簡単な手法を設計する。
新たなサンプル分割手法を用いることで、微調整工程において、ロバストな最悪のグループ性能が得られることが判明した。
論文 参考訳(メタデータ) (2022-04-20T16:22:27Z) - The Group Loss++: A deeper look into group loss for deep metric learning [65.19665861268574]
グループ損失 (Group Loss) は、グループの全サンプルに埋め込まれた類似性を強制する微分可能なラベルプロパゲーション法に基づく損失関数である。
4つのデータセットでクラスタリングと画像検索の最先端結果を示し、2人の再識別データセットで競合結果を示す。
論文 参考訳(メタデータ) (2022-04-04T14:09:58Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。