論文の概要: Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based
Bias in NLP
- arxiv url: http://arxiv.org/abs/2103.00453v1
- Date: Sun, 28 Feb 2021 11:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:49:59.618963
- Title: Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based
Bias in NLP
- Title(参考訳): 自己診断と自己偏見:NLPにおけるコーパスベースのバイアス削減の提案
- Authors: Timo Schick, Sahana Udupa, Hinrich Sch\"utze
- Abstract要約: 問題のあるテキストを生成するモデルの確率を減少させる復号アルゴリズムを提案する。
このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。
- 参考スコア(独自算出の注目度): 10.936043362876651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When trained on large, unfiltered crawls from the internet, language models
pick up and reproduce all kinds of undesirable biases that can be found in the
data: they often generate racist, sexist, violent or otherwise toxic language.
As large models often require millions of training examples to achieve good
performance, it is difficult to completely prevent them from being exposed to
such content. In this paper, we investigate whether pretrained language models
at least know when they exhibit some undesirable bias or produce toxic content.
Based on our findings, we propose a decoding algorithm that reduces the
probability of a model producing problematic text given only a textual
description of the undesired behavior. This algorithm does not rely on manually
curated word lists, nor does it require any training data or changes to the
model's parameters. While our approach does by no means eliminate the issue of
language models generating biased text, we believe it to be an important step
in this direction.
- Abstract(参考訳): インターネットから大規模なフィルターなしのクロールで訓練されると、言語モデルはデータに含まれるすべての種類の望ましくないバイアスを拾い、再現します。
大規模なモデルは、しばしば優れたパフォーマンスを達成するために数百万のトレーニング例を必要とするため、そのようなコンテンツに曝されることを完全に防ぐことは困難です。
本論文では,事前に訓練された言語モデルが好ましくないバイアスを示すか,あるいは有毒なコンテンツを生成するかについて検討する。
そこで本研究では,意図しない動作のテキスト記述だけで問題のあるテキストを生成するモデルの確率を低減できる復号アルゴリズムを提案する。
このアルゴリズムは、手動でキュレートされたワードリストに頼らず、トレーニングデータやモデルのパラメータの変更も必要としない。
このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。
関連論文リスト
- From Prejudice to Parity: A New Approach to Debiasing Large Language Model Word Embeddings [2.9324535682810886]
DeepSoftDebiasは、ニューラルネットワークを使って'ソフトデバイアス'を実行するアルゴリズム
我々は、このアルゴリズムを様々なSOTAデータセット、精度メトリクス、難解なNLPタスクで徹底的に評価する。
DeepSoftDebiasは、性別、人種、宗教の偏見を減らし、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-02-18T08:53:41Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Detecting and Exorcising Statistical Demons from Language Models with
Anti-Models of Negative Data [13.392212395386933]
モデルファミリー内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力がある。
本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。
論文 参考訳(メタデータ) (2020-10-22T16:45:32Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。