論文の概要: Learning under Selective Labels with Data from Heterogeneous
Decision-makers: An Instrumental Variable Approach
- arxiv url: http://arxiv.org/abs/2306.07566v2
- Date: Sat, 24 Jun 2023 01:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 22:01:52.692470
- Title: Learning under Selective Labels with Data from Heterogeneous
Decision-makers: An Instrumental Variable Approach
- Title(参考訳): 不均一意思決定者からのデータを用いた選択的ラベル学習--インストゥルメンタル・変数・アプローチ
- Authors: Jian Chen, Zhehao Li, Xiaojie Mao
- Abstract要約: 本研究では,歴史的意思決定によって部分的にラベル付けされた結果が得られた場合に生じる,選択的ラベル付きデータによる学習の課題について検討する。
ラベル選択バイアスに頑健な予測規則を両識別設定で学習する重み付き学習手法を提案する。
- 参考スコア(独自算出の注目度): 7.629248625993988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning with selectively labeled data, which arises
when outcomes are only partially labeled due to historical decision-making. The
labeled data distribution may substantially differ from the full population,
especially when the historical decisions and the target outcome can be
simultaneously affected by some unobserved factors. Consequently, learning with
only the labeled data may lead to severely biased results when deployed to the
full population. Our paper tackles this challenge by exploiting the fact that
in many applications the historical decisions were made by a set of
heterogeneous decision-makers. In particular, we analyze this setup in a
principled instrumental variable (IV) framework. We establish conditions for
the full-population risk of any given prediction rule to be point-identified
from the observed data and provide sharp risk bounds when the point
identification fails. We further propose a weighted learning approach that
learns prediction rules robust to the label selection bias in both
identification settings. Finally, we apply our proposed approach to a
semi-synthetic financial dataset and demonstrate its superior performance in
the presence of selection bias.
- Abstract(参考訳): 歴史的意思決定によって結果が部分的にラベル付けされた場合に生じる,選択的ラベル付きデータを用いた学習の問題について検討する。
ラベル付きデータ分布は、特に歴史的決定と対象とする結果が観測されていない要因によって同時に影響を受ける場合、全人口と大きく異なる可能性がある。
その結果、ラベル付きデータのみによる学習は、全人口に展開する際の重大なバイアスのある結果につながる可能性がある。
本稿は,多くのアプリケーションにおいて,歴史的意思決定が異種意思決定者によってなされたという事実を生かして,この課題に取り組む。
特に、この設定を原則化されたインストゥルメンタル変数(IV)フレームワークで分析する。
観測データから任意の予測規則の完全個体群リスクを特定できる条件を確立し, ポイント識別が失敗した場合に, 鋭いリスク境界を与える。
さらに、ラベル選択バイアスに頑健な予測規則を両方の識別設定で学習する重み付き学習手法を提案する。
最後に,提案手法を半合成財務データセットに適用し,選択バイアスの存在下での優れた性能を示す。
関連論文リスト
- Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Probabilistic Test-Time Generalization by Variational Neighbor-Labeling [62.158807685159736]
本稿では、ドメインの一般化を試み、モデルが未確認のターゲットドメインにデプロイされる前に、ソースドメインにのみトレーニングされる。
ソーストレーニングされたモデルをテスト時にターゲットドメインに一般化するための、ターゲットサンプルの擬似ラベル化の確率。
より堅牢な擬似ラベルを生成するために、近隣のターゲットサンプルの情報を含む変分隣接ラベル。
論文 参考訳(メタデータ) (2023-07-08T18:58:08Z) - Statistical Inference Under Constrained Selection Bias [20.862583584531322]
本稿では,選択バイアスが存在する場合の統計的推測を可能にする枠組みを提案する。
出力は、目標分布に対する推定値に対する高確率境界である。
我々はこれらの境界を推定するための手法の計算的および統計的特性を分析し、これらの手法が様々なシミュレートされた半合成的なタスクに対して情報的境界を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T23:05:26Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Ex-Ante Assessment of Discrimination in Dataset [20.574371560492494]
データ所有者は、自分たちのデータの使用が過小評価されているコミュニティにどのように害を与えるかという責任を負う。
本稿では, 個人の反応が感性特性によってどの程度異なるかを示すスコアを生成する, 決定トレエのForest of decision trEEsアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-16T19:28:22Z) - Bounding Counterfactuals under Selection Bias [60.55840896782637]
本稿では,識別不能なクエリと識別不能なクエリの両方に対処するアルゴリズムを提案する。
選択バイアスによって引き起こされる欠如にもかかわらず、利用可能なデータの可能性は無限であることを示す。
論文 参考訳(メタデータ) (2022-07-26T10:33:10Z) - Social Bias Meets Data Bias: The Impacts of Labeling and Measurement
Errors on Fairness Criteria [4.048444203617942]
我々は、ラベル付けプロセスにおける事前決定者による誤りと、不利な個人の特徴の測定における誤りの2つの形態を考察する。
分析により、ある統計的バイアスに直面した場合、いくつかの制約が頑健であることを示し、他の制約(等化オッドなど)はバイアスデータでトレーニングされた場合、著しく侵害される。
以上の結果から,既存の公正基準の中から選択するためのガイドラインや,利用可能なデータセットに偏りがある場合の新たな基準を提案するためのガイドラインが提示された。
論文 参考訳(メタデータ) (2022-05-31T22:43:09Z) - On robust risk-based active-learning algorithms for enhanced decision
support [0.0]
分類モデルは、構造的健康モニタリング(SHM)システムやデジタルツインなどの物理資産管理技術の基本的な構成要素である。
本稿では,サンプリングバイアスの効果に対処する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T17:25:41Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Dynamic Selection in Algorithmic Decision-making [9.172670955429906]
本稿では,内因性データを用いたオンライン学習アルゴリズムにおいて,動的選択問題を特定し,対処する。
データの内在性が決定の選択に影響を与えるため、新しいバイアス(自己充足バイアス)が発生する。
バイアスを補正するインストゥルメンタル変数ベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-28T01:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。