論文の概要: Right for the Right Latent Factors: Debiasing Generative Models via
Disentanglement
- arxiv url: http://arxiv.org/abs/2202.00391v1
- Date: Tue, 1 Feb 2022 13:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:37:31.341107
- Title: Right for the Right Latent Factors: Debiasing Generative Models via
Disentanglement
- Title(参考訳): 右潜在因子に対する権利:絡み合いによる生成モデルの偏り
- Authors: Xiaoting Shao, Karl Stelzner, Kristian Kersting
- Abstract要約: 統計機械学習手法の主要な前提は、テスト時に遭遇したデータの分布から独立したサンプルにアクセスすることである。
特に、機械学習モデルは、Clever-Hansのような振る舞いを示すことが示されている。
本稿では,人的フィードバックによって達成される内部表現を解消し,生成モデルをデバイアス化する手法を提案する。
- 参考スコア(独自算出の注目度): 20.41752850243945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key assumption of most statistical machine learning methods is that they
have access to independent samples from the distribution of data they encounter
at test time. As such, these methods often perform poorly in the face of biased
data, which breaks this assumption. In particular, machine learning models have
been shown to exhibit Clever-Hans-like behaviour, meaning that spurious
correlations in the training set are inadvertently learnt. A number of works
have been proposed to revise deep classifiers to learn the right correlations.
However, generative models have been overlooked so far. We observe that
generative models are also prone to Clever-Hans-like behaviour. To counteract
this issue, we propose to debias generative models by disentangling their
internal representations, which is achieved via human feedback. Our experiments
show that this is effective at removing bias even when human feedback covers
only a small fraction of the desired distribution. In addition, we achieve
strong disentanglement results in a quantitative comparison with recent
methods.
- Abstract(参考訳): ほとんどの統計的機械学習手法の重要な前提は、テスト時に遭遇するデータの分布から独立したサンプルにアクセスすることである。
したがって、これらの手法はしばしばバイアスデータに直面して性能が悪く、この仮定を破る。
特に機械学習モデルは、巧妙なハンスのような振る舞いを示すことが示されており、トレーニングセットにおけるスプリアス相関が不注意に学習されることを意味する。
深い分類器を修正して適切な相関関係を学習するために、多くの研究が提案されている。
しかし、現在まで生成モデルは見過ごされている。
生成モデルもまた、Clever-Hansのような振る舞いをしがちである。
この問題に対処するために,人間のフィードバックによって達成される内部表現を解消し,生成モデルをデバイアス化する手法を提案する。
実験の結果,人間のフィードバックが所望の分布のごく一部をカバーしている場合でも,バイアスの除去に有効であることがわかった。
また,近年の手法と定量的に比較した結果を得た。
関連論文リスト
- Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - An Exploration of How Training Set Composition Bias in Machine Learning
Affects Identifying Rare Objects [0.0]
まれなクラスの例を誇張して無視されないようにするのが一般的である。
また、ソースタイプのバランスがほぼ等しくなるような制限されたデータでトレーニングする練習も頻繁に行われます。
ここでは、これらのプラクティスが、過剰な割り当てソースからレアクラスのモデルに偏りがあることを示します。
論文 参考訳(メタデータ) (2022-07-07T10:26:55Z) - Don't Discard All the Biased Instances: Investigating a Core Assumption
in Dataset Bias Mitigation Techniques [19.252319300590656]
データセットバイアスを緩和する既存のテクニックは、バイアス付きモデルを利用してバイアス付きインスタンスを識別することが多い。
これらの偏りのあるインスタンスの役割は、メインモデルのトレーニング中に減少し、アウト・オブ・ディストリビューションデータに対するロバスト性を高める。
本稿では,この仮定が一般には成り立たないことを示す。
論文 参考訳(メタデータ) (2021-09-01T10:25:46Z) - A Generative Approach for Mitigating Structural Biases in Natural
Language Inference [24.44419010439227]
本研究では、NLIタスクを生成タスクとして再構成し、モデルが入力とラベルのバイアス付きサブセットに条件付けされるようにする。
このアプローチは大量のバイアスに対して非常に堅牢であることを示す。
生成モデルは訓練が困難であり、識別ベースラインよりも一般的にはパフォーマンスが悪くなっている。
論文 参考訳(メタデータ) (2021-08-31T17:59:45Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。