論文の概要: Classification with Strategically Withheld Data
- arxiv url: http://arxiv.org/abs/2012.10203v2
- Date: Thu, 14 Jan 2021 12:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:00:42.772208
- Title: Classification with Strategically Withheld Data
- Title(参考訳): 戦略的非保持データを用いた分類
- Authors: Anilesh K. Krishnaswamy, Haoming Li, David Rein, Hanrui Zhang, and
Vincent Conitzer
- Abstract要約: 機械学習のテクニックは、クレジット承認や大学入学などのアプリケーションで有用である。
このような文脈でより好意的に分類するために、エージェントは、悪いテストスコアなどのいくつかの特徴を戦略的に控えることを決定できる。
sc Mincut, sc Hill-Climbing (sc HC) と Incentive-Logistic Regression (sc-LR) の3つの分類法を設計する。
- 参考スコア(独自算出の注目度): 41.78264347024645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning techniques can be useful in applications such as credit
approval and college admission. However, to be classified more favorably in
such contexts, an agent may decide to strategically withhold some of her
features, such as bad test scores. This is a missing data problem with a twist:
which data is missing {\em depends on the chosen classifier}, because the
specific classifier is what may create the incentive to withhold certain
feature values. We address the problem of training classifiers that are robust
to this behavior.
We design three classification methods: {\sc Mincut}, {\sc Hill-Climbing}
({\sc HC}) and Incentive-Compatible Logistic Regression ({\sc IC-LR}). We show
that {\sc Mincut} is optimal when the true distribution of data is fully known.
However, it can produce complex decision boundaries, and hence be prone to
overfitting in some cases. Based on a characterization of truthful classifiers
(i.e., those that give no incentive to strategically hide features), we devise
a simpler alternative called {\sc HC} which consists of a hierarchical ensemble
of out-of-the-box classifiers, trained using a specialized hill-climbing
procedure which we show to be convergent. For several reasons, {\sc Mincut} and
{\sc HC} are not effective in utilizing a large number of complementarily
informative features. To this end, we present {\sc IC-LR}, a modification of
Logistic Regression that removes the incentive to strategically drop features.
We also show that our algorithms perform well in experiments on real-world data
sets, and present insights into their relative performance in different
settings.
- Abstract(参考訳): 機械学習のテクニックは、クレジット承認や大学入学などのアプリケーションで有用である。
しかし、そのような文脈でより有利に分類するために、エージェントは、悪いテストスコアのようないくつかの特徴を戦略的に保持することを決定できる。
どのデータが欠けているかは、選択された分類器に依存する。なぜなら、特定の分類器は、特定の特徴値を保持するインセンティブを生み出す可能性があるからである。
我々は,この行動に頑健な分類器を訓練する問題に対処する。
我々は3つの分類法を設計する: {\sc Mincut}, {\sc Hill-Climbing} ({\sc HC}) およびIncentive-Compatible Logistic Regression ({\sc IC-LR})。
データの真の分布が完全に分かっている場合, {\sc Mincut} が最適であることを示す。
しかし、複雑な決定境界を生じさせるため、場合によってはオーバーフィットしがちである。
真理的な分類器(すなわち、戦略的に特徴を隠す動機を持たないもの)の特徴付けに基づいて、我々は収束していることを示す特別なヒルクライミング手順を用いて訓練された、既成の分類器の階層的なアンサンブルからなるより単純な選択肢である {\sc hc} を考案する。
いくつかの理由から、sc Mincut} と {\sc HC} は多くの相補的な情報的特徴を利用するには効果がない。
この目的のために、ロジスティック回帰の修正である {\sc IC-LR} を提示する。
また,本アルゴリズムは実世界のデータセット実験において良好な性能を示し,その相対的性能に関する知見を異なる設定で提示する。
関連論文リスト
- A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - SSB: Simple but Strong Baseline for Boosting Performance of Open-Set
Semi-Supervised Learning [106.46648817126984]
本稿では,挑戦的で現実的なオープンセットSSL設定について検討する。
目標は、inlierを正しく分類し、outlierを検知することである。
信頼度の高い疑似ラベル付きデータを組み込むことで、不整合分類性能を大幅に改善できることが判明した。
論文 参考訳(メタデータ) (2023-11-17T15:14:40Z) - An Upper Bound for the Distribution Overlap Index and Its Applications [18.481370450591317]
本稿では,2つの確率分布間の重なり関数に対する計算容易な上限を提案する。
提案した境界は、一級分類と領域シフト解析においてその値を示す。
私たちの研究は、重複ベースのメトリクスの応用を拡大する大きな可能性を示しています。
論文 参考訳(メタデータ) (2022-12-16T20:02:03Z) - Class-Level Logit Perturbation [0.0]
特徴摂動とラベル摂動は、様々なディープラーニングアプローチにおいて有用であることが証明されている。
シングルラベルとマルチラベルの両方の分類タスクに対して,摂動ロジットを明示的に学習するための新しい手法が提案されている。
logit上でしか摂動しないため、既存の分類アルゴリズムと融合するためのプラグインとして使用できる。
論文 参考訳(メタデータ) (2022-09-13T00:49:32Z) - A Study on the Predictability of Sample Learning Consistency [4.022364531869169]
CIFAR-100とCIFAR-10のCスコア予測モデルを訓練する。
しかし、これらのモデルは同じ分布内と外分布内の両方で十分に一般化されていないことが判明した。
我々は、サンプルが隣人との関係、特に何人が同じラベルを共有しているかは、Cスコアを説明するのに役立つと仮定する。
論文 参考訳(メタデータ) (2022-07-07T21:05:53Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Exploring Category-correlated Feature for Few-shot Image Classification [27.13708881431794]
本稿では,従来の知識として,新しいクラスとベースクラスのカテゴリ相関を探索し,シンプルで効果的な特徴補正手法を提案する。
提案手法は, 広く使用されている3つのベンチマークにおいて, 一定の性能向上が得られる。
論文 参考訳(メタデータ) (2021-12-14T08:25:24Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - For self-supervised learning, Rationality implies generalization,
provably [13.526562756159809]
自己超越法を用いて得られた分類器の一般化ギャップに新たな上限を証明した。
我々は,CIFAR-10 や ImageNet 上の多くの一般的な表現学習ベース分類器に対して,我々の境界は空白ではないことを示す。
論文 参考訳(メタデータ) (2020-10-16T17:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。