Fugu-MT 論文翻訳(概要): How Gender Debiasing Affects Internal Model Representations, and Why It Matters

論文の概要: How Gender Debiasing Affects Internal Model Representations, and Why It Matters

arxiv url: http://arxiv.org/abs/2204.06827v1
Date: Thu, 14 Apr 2022 08:54:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-15 13:02:54.723172
Title: How Gender Debiasing Affects Internal Model Representations, and Why It Matters
Title（参考訳）: ジェンダーのデバイアスが内部モデル表現にどのように影響するか、なぜ重要か
Authors: Hadas Orgad, Seraphina Goldfarb-Tarrant, Yonatan Belinkov
Abstract要約: 内因性バイアスは、標準のWEAT測定値よりもデバイアスの指標として優れていることを示す。当社のフレームワークは,NLPモデルのバイアスを包括的に把握し,より情報のある方法でNLPシステムのデプロイに適用することができる。
参考スコア（独自算出の注目度）: 26.993273464725995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Common studies of gender bias in NLP focus either on extrinsic bias measured by model performance on a downstream task or on intrinsic bias found in models' internal representations. However, the relationship between extrinsic and intrinsic bias is relatively unknown. In this work, we illuminate this relationship by measuring both quantities together: we debias a model during downstream fine-tuning, which reduces extrinsic bias, and measure the effect on intrinsic bias, which is operationalized as bias extractability with information-theoretic probing. Through experiments on two tasks and multiple bias metrics, we show that our intrinsic bias metric is a better indicator of debiasing than (a contextual adaptation of) the standard WEAT metric, and can also expose cases of superficial debiasing. Our framework provides a comprehensive perspective on bias in NLP models, which can be applied to deploy NLP systems in a more informed manner. Our code will be made publicly available.
Abstract（参考訳）: nlpにおけるジェンダーバイアスの一般的な研究は、下流タスクにおけるモデルパフォーマンスによって測定される外部バイアスか、モデルの内部表現に見られる内在バイアスに焦点をあてている。しかし、外因性バイアスと内因性バイアスの関係は比較的不明である。本研究は, 下流の微調整時にモデルをデバイアスし, 外部バイアスを低減し, 情報理論的な探索によりバイアス抽出性として運用される内在バイアスに対する効果を計測する。 2つのタスクと複数のバイアスメトリックの実験を通して、我々の内在バイアスメトリックは、標準のWEATメトリックの(文脈適応)よりもデバイアスの指標であり、表面的デバイアスのケースも露呈できることを示した。当社のフレームワークは,NLPモデルのバイアスを包括的に把握し,より情報のある方法でNLPシステムのデプロイに適用することができる。私たちのコードは公開されます。

関連論文リスト

BiasConnect: Investigating Bias Interactions in Text-to-Image Models [73.76853483463836]
テキスト・ツー・イメージ・モデルにおけるバイアス相互作用の分析と定量化を目的とした新しいツールであるBiasConnectを紹介する。我々の手法は、与えられたバイアスが修正されたとき、他のバイアス次元が理想的な分布に向かって、あるいは離れてどのように変化するかを示す経験的推定を提供する。本稿では,最適なバイアス緩和軸の選択,学習する依存関係の異なるTTIモデルの比較,およびTTIモデルにおける交叉社会的バイアスの増幅を理解するためのBiasConnectの有用性を示す。
論文参考訳（メタデータ） (2025-03-12T19:01:41Z)
Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文参考訳（メタデータ） (2024-12-02T16:56:08Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
Analyzing Correlations Between Intrinsic and Extrinsic Bias Metrics of Static Word Embeddings With Their Measuring Biases Aligned [8.673018064714547]
本研究では,自然言語処理(NLP)システムがバイアス行動を示すかどうかを予測するために,静的単語埋め込みの固有バイアス指標の有用性について検討する。単語埋め込みは、実際のベクトルを通して単語の意味を表現する基本的なNLP技術の1つであり、問題として、ステレオタイプのような社会的バイアスも学習する。
論文参考訳（メタデータ） (2024-09-14T02:13:56Z)
Is There a One-Model-Fits-All Approach to Information Extraction? Revisiting Task Definition Biases [62.806300074459116]
定義バイアスは、モデルを誤解させる可能性のある負の現象である。 IEでは、情報抽出データセット間のバイアスと、情報抽出データセットとインストラクションチューニングデータセット間のバイアスの2つの定義バイアスを識別する。本稿では, 定義バイアス測定, バイアス対応微調整, タスク固有バイアス緩和からなる多段階フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-25T03:19:20Z)
Improving Bias Mitigation through Bias Experts in Natural Language Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。提案手法は補助モデルのバイアス識別能力を向上させる。
論文参考訳（メタデータ） (2023-12-06T16:15:00Z)
Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文参考訳（メタデータ） (2023-10-14T13:56:24Z)
Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文参考訳（メタデータ） (2023-10-13T00:49:09Z)
Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文参考訳（メタデータ） (2023-05-06T13:13:18Z)
Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。 DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文参考訳（メタデータ） (2022-12-11T06:16:14Z)
The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文参考訳（メタデータ） (2022-03-28T09:28:13Z)
Information-Theoretic Bias Reduction via Causal View of Spurious Correlation [71.9123886505321]
本稿では,スプリアス相関の因果的解釈による情報理論バイアス測定手法を提案する。本稿では,バイアス正規化損失を含むアルゴリズムバイアスに対する新しいデバイアスフレームワークを提案する。提案したバイアス測定とデバイアス法は、多様な現実シナリオで検証される。
論文参考訳（メタデータ） (2022-01-10T01:19:31Z)
Learning Debiased Models with Dynamic Gradient Alignment and Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文参考訳（メタデータ） (2021-11-25T14:50:10Z)
Intrinsic Bias Metrics Do Not Correlate with Application Bias [12.588713044749179]
本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。異なるタスクと実験条件をカバーする数百のトレーニングモデルに対して,内在バイアスと外部バイアスの両方を測定した。埋め込みスペースのデビア化の取り組みは、常に下流モデルバイアスの測定とペアリングされることを推奨し、追加のチャレンジセットと注釈付きテストデータの作成を通じて下流測定をより実現可能にするためのコミュニティの努力を高めることを提案します。
論文参考訳（メタデータ） (2020-12-31T18:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。