論文の概要: Keeping Up with the Language Models: Robustness-Bias Interplay in NLI
Data and Models
- arxiv url: http://arxiv.org/abs/2305.12620v1
- Date: Mon, 22 May 2023 01:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:16:35.019689
- Title: Keeping Up with the Language Models: Robustness-Bias Interplay in NLI
Data and Models
- Title(参考訳): 言語モデルに追いつく:NLIデータとモデルにおけるロバストネスとバイアスの相互作用
- Authors: Ioana Baldini, Chhavi Yadav, Payel Das, Kush R. Varshney
- Abstract要約: 我々は, LM生成語彙変動, 逆フィルタリング, 人間の検証を組み合わせることで, 既存のNLIのバイアスベンチマークを拡張した。
BBNLI-nextは平均して、最先端のNLIモデルの精度を95.3%から58.6%に下げる。
本稿では,抗ステレオタイプバイアスとモデル脆度を考慮したバイアス対策を提案する。
- 参考スコア(独自算出の注目度): 31.88383035298383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auditing unwanted social bias in language models (LMs) is inherently hard due
to the multidisciplinary nature of the work. In addition, the rapid evolution
of LMs can make benchmarks irrelevant in no time. Bias auditing is further
complicated by LM brittleness: when a presumably biased outcome is observed, is
it due to model bias or model brittleness? We propose enlisting the models
themselves to help construct bias auditing datasets that remain challenging,
and introduce bias measures that distinguish between types of model errors.
First, we extend an existing bias benchmark for NLI (BBNLI) using a combination
of LM-generated lexical variations, adversarial filtering, and human
validation. We demonstrate that the newly created dataset (BBNLInext) is more
challenging than BBNLI: on average, BBNLI-next reduces the accuracy of
state-of-the-art NLI models from 95.3%, as observed by BBNLI, to 58.6%. Second,
we employ BBNLI-next to showcase the interplay between robustness and bias, and
the subtlety in differentiating between the two. Third, we point out
shortcomings in current bias scores used in the literature and propose bias
measures that take into account pro-/anti-stereotype bias and model
brittleness. We will publicly release the BBNLI-next dataset to inspire
research on rapidly expanding benchmarks to keep up with model evolution, along
with research on the robustness-bias interplay in bias auditing.
Note: This paper contains offensive text examples.
- Abstract(参考訳): 言語モデル(LM)における不必要な社会的バイアスの監査は、その作業の多分野性のために本質的に困難である。
さらに、LMの急速な進化は、ベンチマークをすぐに無関係にすることができる。
バイアス監査は、lm脆性によってさらに複雑になる。 偏りのある結果が観測された場合、それはモデルバイアスまたはモデル脆性に起因するか?
モデル自体を登録して、困難なままのバイアス監査データセットの構築を支援し、モデルエラーのタイプを区別するバイアス測定を導入することを提案する。
まず,NLI(BBNLI)の既存のバイアスベンチマークを,LM生成語彙変動,逆フィルタリング,人間による検証の組み合わせを用いて拡張する。
BBNLI-nextは平均して、最先端のNLIモデルの精度を95.3%から58.6%に下げる。
第2に,bbnli-nextを用いてロバスト性とバイアスの相互作用と,両者の微妙な違いを示す。
第3に,現在のバイアススコアの欠点を指摘し,親/反ステレオタイプバイアスとモデル脆性を考慮したバイアス尺度を提案する。
BBNLI-nextデータセットを公開し、急速に拡大するベンチマークの研究を刺激し、モデル進化に追随し、バイアス監査におけるロバストネスバイアスの相互作用に関する研究を行う。
注:本論文は攻撃的なテキスト例を含む。
関連論文リスト
- Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。
我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-20T07:40:12Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Current Topological and Machine Learning Applications for Bias Detection
in Text [4.799066966918178]
本研究はRedditBiasデータベースを用いてテキストバイアスの分析を行う。
BERTおよびRoBERTaの変種を含む4つの変圧器モデルについて検討した。
発見によるとBERT、特にミニBERTはバイアス分類に優れており、多言語モデルは遅延している。
論文 参考訳(メタデータ) (2023-11-22T16:12:42Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - A Generative Approach for Mitigating Structural Biases in Natural
Language Inference [24.44419010439227]
本研究では、NLIタスクを生成タスクとして再構成し、モデルが入力とラベルのバイアス付きサブセットに条件付けされるようにする。
このアプローチは大量のバイアスに対して非常に堅牢であることを示す。
生成モデルは訓練が困難であり、識別ベースラインよりも一般的にはパフォーマンスが悪くなっている。
論文 参考訳(メタデータ) (2021-08-31T17:59:45Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。