論文の概要: Learning under Selective Labels with Data from Heterogeneous
Decision-makers: An Instrumental Variable Approach
- arxiv url: http://arxiv.org/abs/2306.07566v2
- Date: Sat, 24 Jun 2023 01:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 22:01:52.692470
- Title: Learning under Selective Labels with Data from Heterogeneous
Decision-makers: An Instrumental Variable Approach
- Title(参考訳): 不均一意思決定者からのデータを用いた選択的ラベル学習--インストゥルメンタル・変数・アプローチ
- Authors: Jian Chen, Zhehao Li, Xiaojie Mao
- Abstract要約: 本研究では,歴史的意思決定によって部分的にラベル付けされた結果が得られた場合に生じる,選択的ラベル付きデータによる学習の課題について検討する。
ラベル選択バイアスに頑健な予測規則を両識別設定で学習する重み付き学習手法を提案する。
- 参考スコア(独自算出の注目度): 7.629248625993988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning with selectively labeled data, which arises
when outcomes are only partially labeled due to historical decision-making. The
labeled data distribution may substantially differ from the full population,
especially when the historical decisions and the target outcome can be
simultaneously affected by some unobserved factors. Consequently, learning with
only the labeled data may lead to severely biased results when deployed to the
full population. Our paper tackles this challenge by exploiting the fact that
in many applications the historical decisions were made by a set of
heterogeneous decision-makers. In particular, we analyze this setup in a
principled instrumental variable (IV) framework. We establish conditions for
the full-population risk of any given prediction rule to be point-identified
from the observed data and provide sharp risk bounds when the point
identification fails. We further propose a weighted learning approach that
learns prediction rules robust to the label selection bias in both
identification settings. Finally, we apply our proposed approach to a
semi-synthetic financial dataset and demonstrate its superior performance in
the presence of selection bias.
- Abstract(参考訳): 歴史的意思決定によって結果が部分的にラベル付けされた場合に生じる,選択的ラベル付きデータを用いた学習の問題について検討する。
ラベル付きデータ分布は、特に歴史的決定と対象とする結果が観測されていない要因によって同時に影響を受ける場合、全人口と大きく異なる可能性がある。
その結果、ラベル付きデータのみによる学習は、全人口に展開する際の重大なバイアスのある結果につながる可能性がある。
本稿は,多くのアプリケーションにおいて,歴史的意思決定が異種意思決定者によってなされたという事実を生かして,この課題に取り組む。
特に、この設定を原則化されたインストゥルメンタル変数(IV)フレームワークで分析する。
観測データから任意の予測規則の完全個体群リスクを特定できる条件を確立し, ポイント識別が失敗した場合に, 鋭いリスク境界を与える。
さらに、ラベル選択バイアスに頑健な予測規則を両方の識別設定で学習する重み付き学習手法を提案する。
最後に,提案手法を半合成財務データセットに適用し,選択バイアスの存在下での優れた性能を示す。
関連論文リスト
- The Selected-completely-at-random Complementary Label is a Practical
Weak Supervision for Multi-class Classification [71.42360409393201]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫した手法を提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Correcting Underrepresentation and Intersectional Bias for Fair
Classification [55.2480439325792]
偏見バイアスによって劣化したデータから学習する問題について考察し, 正の例を, 一定の数のセンシティブなグループに対して, 異なる未知のレートでフィルタする。
交叉群のメンバーシップが各交叉率を計算不能にするような設定であっても,少数の偏りのないデータを用いてグループワイド・ドロップアウトパラメータを効率的に推定できることが示される。
我々は,この学習と再重み付け過程をカプセル化するアルゴリズムを提案し,高い確率で真の分布に対する仮説のリスクが任意に近いことをPACスタイルの強い保証を提供する。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Statistical Inference Under Constrained Selection Bias [20.862583584531322]
本稿では,選択バイアスが存在する場合の統計的推測を可能にする枠組みを提案する。
出力は、目標分布に対する推定値に対する高確率境界である。
我々はこれらの境界を推定するための手法の計算的および統計的特性を分析し、これらの手法が様々なシミュレートされた半合成的なタスクに対して情報的境界を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T23:05:26Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Robust Design and Evaluation of Predictive Algorithms under Unobserved
Confounding [3.1133049660590615]
本稿では,選択的に観測されたデータにおける予測アルゴリズムの頑健な設計と評価のための統一手法を提案する。
提案手法は, 選択されていない単位と選択された単位の平均値によって, 結果がどの程度異なるか, という一般的な仮定を与える。
観測不能な共起に関する様々な仮定が、デフォルトリスク予測や、センシティブなグループ間での信用スコアの評価に有意義な変化をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-19T20:41:44Z) - Ex-Ante Assessment of Discrimination in Dataset [20.574371560492494]
データ所有者は、自分たちのデータの使用が過小評価されているコミュニティにどのように害を与えるかという責任を負う。
本稿では, 個人の反応が感性特性によってどの程度異なるかを示すスコアを生成する, 決定トレエのForest of decision trEEsアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-16T19:28:22Z) - Bounding Counterfactuals under Selection Bias [60.55840896782637]
本稿では,識別不能なクエリと識別不能なクエリの両方に対処するアルゴリズムを提案する。
選択バイアスによって引き起こされる欠如にもかかわらず、利用可能なデータの可能性は無限であることを示す。
論文 参考訳(メタデータ) (2022-07-26T10:33:10Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Social Bias Meets Data Bias: The Impacts of Labeling and Measurement
Errors on Fairness Criteria [4.048444203617942]
我々は、ラベル付けプロセスにおける事前決定者による誤りと、不利な個人の特徴の測定における誤りの2つの形態を考察する。
分析により、ある統計的バイアスに直面した場合、いくつかの制約が頑健であることを示し、他の制約(等化オッドなど)はバイアスデータでトレーニングされた場合、著しく侵害される。
以上の結果から,既存の公正基準の中から選択するためのガイドラインや,利用可能なデータセットに偏りがある場合の新たな基準を提案するためのガイドラインが提示された。
論文 参考訳(メタデータ) (2022-05-31T22:43:09Z) - On robust risk-based active-learning algorithms for enhanced decision
support [0.0]
分類モデルは、構造的健康モニタリング(SHM)システムやデジタルツインなどの物理資産管理技術の基本的な構成要素である。
本稿では,サンプリングバイアスの効果に対処する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T17:25:41Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。