論文の概要: Counterfactual Probing for the influence of affect and specificity on
Intergroup Bias
- arxiv url: http://arxiv.org/abs/2305.16409v1
- Date: Thu, 25 May 2023 18:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 18:36:04.978498
- Title: Counterfactual Probing for the influence of affect and specificity on
Intergroup Bias
- Title(参考訳): グループ間バイアスに対する影響と特異性の影響に関する実証研究
- Authors: Venkata S Govindarajan, Kyle Mahowald, David I. Beaver, Junyi Jessy Li
- Abstract要約: 2つの実用的特徴(特異性と影響)が異なるグループ間文脈で系統的に異なるかどうかを検討する。
予備分析では、グループ間関係ラベルによるツイートの特異性と影響の質素な相関を見出す。
- 参考スコア(独自算出の注目度): 23.32083897119715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While existing work on studying bias in NLP focues on negative or pejorative
language use, Govindarajan et al. (2023) offer a revised framing of bias in
terms of intergroup social context, and its effects on language behavior. In
this paper, we investigate if two pragmatic features (specificity and affect)
systematically vary in different intergroup contexts -- thus connecting this
new framing of bias to language output. Preliminary analysis finds modest
correlations between specificity and affect of tweets with supervised
intergroup relationship (IGR) labels. Counterfactual probing further reveals
that while neural models finetuned for predicting IGR labels reliably use
affect in classification, the model's usage of specificity is inconclusive.
Code and data can be found at: https://github.com/venkatasg/intergroup-probing
- Abstract(参考訳): NLPにおける偏見の研究は、否定的または悲観的な言語使用に関するものであるが、Govindarajan et al. (2023) は集団間社会的文脈における偏見の修正と言語行動への影響について述べている。
本稿では,2つの実用的特徴(特異性と影響)が異なるグループ間文脈で体系的に異なるかどうかを考察し,この新たなバイアスフレーミングと言語出力を結びつける。
予備分析では、igr(supervised intergroup relationship)ラベルを用いたツイートの特異性と影響の相関が緩やかに示されている。
IGRラベルを予測するために微調整されたニューラルモデルは、分類に確実に影響を及ぼすが、モデルの特異性の使用は決定的ではない。
コードとデータは、https://github.com/venkatasg/intergroup-probingにある。
関連論文リスト
- A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers [0.0]
バイアス検出のためにテンプレートや特定のデータセットに頼るのではなく、ターゲットドメインデータに小さな摂動を持つ対実例を作成します。
感情,感情,ヘイトスピーチなどの主観的分析に広く用いられている分類器について,本研究の結果は,ある国で話されている言語に関する肯定的なバイアスを示す。
論文 参考訳(メタデータ) (2024-07-01T22:17:17Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z) - Towards classification parity across cohorts [16.21248370949611]
この研究は、明示的かつ暗黙的な感度のある特徴にまたがる分類パリティを達成することを目的としている。
言語モデルを用いて学習した個々の言語の埋め込みをクラスタリングすることで、暗黙のコホートを得る。
我々は,コホート間のモデル性能の範囲を最小化することを目的とした損失関数の修正を導入することにより,分類パリティを向上させる。
論文 参考訳(メタデータ) (2020-05-16T16:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。