論文の概要: SODAPOP: Open-Ended Discovery of Social Biases in Social Commonsense
Reasoning Models
- arxiv url: http://arxiv.org/abs/2210.07269v1
- Date: Thu, 13 Oct 2022 18:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:06:13.171049
- Title: SODAPOP: Open-Ended Discovery of Social Biases in Social Commonsense
Reasoning Models
- Title(参考訳): SODAPOP:ソーシャルコモンセンス推論モデルにおけるソーシャルバイアスのオープンな発見
- Authors: Haozhe An, Zongxia Li, Jieyu Zhao, Rachel Rudinger
- Abstract要約: SODAPOP (Social bias Discovery from Answers about PeOPle) を提案する。
ソーシャル・コモンセンス・モデルを用いて、生成された気晴らしをスコアリングすることで、人口動態群とオープンな単語群の間のステレオタイプ的関連を明らかにすることができる。
また、脱バイアスモデル上でSODAPOPをテストし、複数の最先端脱バイアスアルゴリズムの限界を示す。
- 参考スコア(独自算出の注目度): 22.13138599547492
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A common limitation of diagnostic tests for detecting social biases in NLP
models is that they may only detect stereotypic associations that are
pre-specified by the designer of the test. Since enumerating all possible
problematic associations is infeasible, it is likely these tests fail to detect
biases that are present in a model but not pre-specified by the designer. To
address this limitation, we propose SODAPOP (SOcial bias Discovery from Answers
about PeOPle) in social commonsense question-answering. Our pipeline generates
modified instances from the Social IQa dataset (Sap et al., 2019) by (1)
substituting names associated with different demographic groups, and (2)
generating many distractor answers from a masked language model. By using a
social commonsense model to score the generated distractors, we are able to
uncover the model's stereotypic associations between demographic groups and an
open set of words. We also test SODAPOP on debiased models and show the
limitations of multiple state-of-the-art debiasing algorithms.
- Abstract(参考訳): NLPモデルにおける社会的偏見を検出するための診断テストの一般的な制限は、彼らはテストの設計者が事前に指定したステレオタイプ関連を検出できないことである。
すべての問題のある関連を列挙することは不可能であるため、これらのテストはモデルに存在するが設計者が事前に指定していないバイアスを検出できない可能性が高い。
この制限に対処するため,社会コモンセンス質問回答におけるSODAPOP(Socical bias Discovery from Answers about PeOPle)を提案する。
筆者らのパイプラインは,(1)異なる人口集団に関連付けられた名前を置換し,(2)マスキングされた言語モデルから多くの障害回答を生成することにより,Social IQaデータセット(Sap et al., 2019)から修正インスタンスを生成する。
ソーシャル・コモンセンス・モデルを用いて生成した気晴らしをスコア付けすることで、人口統計群と単語のオープンセットの間のモデルのステレオタイプ関係を明らかにすることができる。
また,デバイアスモデル上でsodapopをテストし,最先端デバイアスアルゴリズムの限界を示す。
関連論文リスト
- BiasDora: Exploring Hidden Biased Associations in Vision-Language Models [23.329280888159744]
9つのバイアス次元にまたがる隠された暗黙の関連について検討した。
相関関係が負性,毒性,極度にどのように変化するかを示す。
私たちの研究は、既存の方法論では認識されない微妙で極端なバイアスを特定します。
論文 参考訳(メタデータ) (2024-07-02T08:55:40Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in
Generative Language Models [8.211129045180636]
我々は、生成言語モデルにおいて、シュティグマを通して、社会的偏見の増幅を捉えるためのベンチマークを導入する。
私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデル堅牢性の両方をテストするために慎重に構築された、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。
社会的に偏りのあるアウトプットの割合は、様々なデコード戦略やスタイルにまたがって45%から59%の範囲であることがわかった。
論文 参考訳(メタデータ) (2023-12-12T18:27:44Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。