論文の概要: Soft-prompt Tuning for Large Language Models to Evaluate Bias
- arxiv url: http://arxiv.org/abs/2306.04735v2
- Date: Tue, 5 Mar 2024 17:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:31:58.795086
- Title: Soft-prompt Tuning for Large Language Models to Evaluate Bias
- Title(参考訳): バイアス評価のための大規模言語モデルのソフトプロンプトチューニング
- Authors: Jacob-Junqi Tian, David Emerson, Sevil Zanjani Miyandoab, Deval
Pandya, Laleh Seyyed-Kalantari, Faiza Khan Khattak
- Abstract要約: ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
- 参考スコア(独自算出の注目度): 0.03141085922386211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting large language models has gained immense popularity in recent years
due to the advantage of producing good results even without the need for
labelled data. However, this requires prompt tuning to get optimal prompts that
lead to better model performances. In this paper, we explore the use of
soft-prompt tuning on sentiment classification task to quantify the biases of
large language models (LLMs) such as Open Pre-trained Transformers (OPT) and
Galactica language model. Since these models are trained on real-world data
that could be prone to bias toward certain groups of populations, it is
important to identify these underlying issues. Using soft-prompts to evaluate
bias gives us the extra advantage of avoiding the human-bias injection that can
be caused by manually designed prompts. We check the model biases on different
sensitive attributes using the group fairness (bias) and find interesting bias
patterns. Since LLMs have been used in the industry in various applications, it
is crucial to identify the biases before deploying these models in practice. We
open-source our pipeline and encourage industry researchers to adapt our work
to their use cases.
- Abstract(参考訳): 近年,ラベル付きデータも必要とせず,良好な結果が得られるという利点から,大規模言語モデルの普及が盛んに行われている。
しかし、モデルパフォーマンスを改善するために最適なプロンプトを得るためには、プロンプトチューニングが必要である。
本稿では,感情分類タスクにおけるソフト・プロンプト・チューニングを用いて,Open Pre-trained Transformer (OPT)やGalactica言語モデルなどの大規模言語モデル(LLM)のバイアスを定量化する。
これらのモデルは、特定の集団に偏りやすい現実世界のデータに基づいて訓練されているため、これらの根本的な問題を特定することが重要である。
ソフトプロンプトを使ってバイアスを評価することで、手動でデザインされたプロンプトによって引き起こされる人間のバイアス注入を避けるという余分な利点が得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
LLMは様々なアプリケーションで業界で使われてきたため、これらのモデルを実際にデプロイする前にバイアスを特定することが不可欠である。
当社はパイプラインをオープンソース化し、業界研究者に彼らのユースケースに私たちの作業を適用するように促しています。
関連論文リスト
- GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Improving Bias Mitigation through Bias Experts in Natural Language
Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。
提案手法は補助モデルのバイアス識別能力を向上させる。
論文 参考訳(メタデータ) (2023-12-06T16:15:00Z) - Current Topological and Machine Learning Applications for Bias Detection
in Text [4.799066966918178]
本研究はRedditBiasデータベースを用いてテキストバイアスの分析を行う。
BERTおよびRoBERTaの変種を含む4つの変圧器モデルについて検討した。
発見によるとBERT、特にミニBERTはバイアス分類に優れており、多言語モデルは遅延している。
論文 参考訳(メタデータ) (2023-11-22T16:12:42Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Detecting Natural Language Biases with Prompt-based Learning [0.3749861135832073]
本研究では,(1)性別,(2)人種,(3)性的指向,(4)宗教に基づく4種類の偏見を示すプロンプトを設計する方法について検討する。
これらのプロンプトは、BERT、RoBERTa、T5といった人気モデルやよく認識されているモデルの様々なバリエーションに適用し、それらのバイアスを評価する。
モデル予測にバイアスがあるかどうかを判断するために人的判断を用い、モデルレベルの判断(さらなるプロンプトを通じて)を使用して、モデルが自身の予測のバイアスを自己診断できるかどうかを理解する。
論文 参考訳(メタデータ) (2023-09-11T04:20:36Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。