論文の概要: Soft-prompt Tuning for Large Language Models to Evaluate Bias
- arxiv url: http://arxiv.org/abs/2306.04735v2
- Date: Tue, 5 Mar 2024 17:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:31:58.795086
- Title: Soft-prompt Tuning for Large Language Models to Evaluate Bias
- Title(参考訳): バイアス評価のための大規模言語モデルのソフトプロンプトチューニング
- Authors: Jacob-Junqi Tian, David Emerson, Sevil Zanjani Miyandoab, Deval
Pandya, Laleh Seyyed-Kalantari, Faiza Khan Khattak
- Abstract要約: ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
- 参考スコア(独自算出の注目度): 0.03141085922386211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting large language models has gained immense popularity in recent years
due to the advantage of producing good results even without the need for
labelled data. However, this requires prompt tuning to get optimal prompts that
lead to better model performances. In this paper, we explore the use of
soft-prompt tuning on sentiment classification task to quantify the biases of
large language models (LLMs) such as Open Pre-trained Transformers (OPT) and
Galactica language model. Since these models are trained on real-world data
that could be prone to bias toward certain groups of populations, it is
important to identify these underlying issues. Using soft-prompts to evaluate
bias gives us the extra advantage of avoiding the human-bias injection that can
be caused by manually designed prompts. We check the model biases on different
sensitive attributes using the group fairness (bias) and find interesting bias
patterns. Since LLMs have been used in the industry in various applications, it
is crucial to identify the biases before deploying these models in practice. We
open-source our pipeline and encourage industry researchers to adapt our work
to their use cases.
- Abstract(参考訳): 近年,ラベル付きデータも必要とせず,良好な結果が得られるという利点から,大規模言語モデルの普及が盛んに行われている。
しかし、モデルパフォーマンスを改善するために最適なプロンプトを得るためには、プロンプトチューニングが必要である。
本稿では,感情分類タスクにおけるソフト・プロンプト・チューニングを用いて,Open Pre-trained Transformer (OPT)やGalactica言語モデルなどの大規模言語モデル(LLM)のバイアスを定量化する。
これらのモデルは、特定の集団に偏りやすい現実世界のデータに基づいて訓練されているため、これらの根本的な問題を特定することが重要である。
ソフトプロンプトを使ってバイアスを評価することで、手動でデザインされたプロンプトによって引き起こされる人間のバイアス注入を避けるという余分な利点が得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
LLMは様々なアプリケーションで業界で使われてきたため、これらのモデルを実際にデプロイする前にバイアスを特定することが不可欠である。
当社はパイプラインをオープンソース化し、業界研究者に彼らのユースケースに私たちの作業を適用するように促しています。
関連論文リスト
- GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes [2.2162879952427343]
本稿では,バイアス検出の革新的なアプローチであるGAS-Netを紹介する。
GUS-Netは、(G)エナラライゼーション、(U)nfairness、(S)tereotypesの3つの重要な種類のバイアスに焦点を当てている。
本手法は,事前学習したモデルの文脈エンコーディングを組み込むことにより,従来のバイアス検出手法を強化する。
論文 参考訳(メタデータ) (2024-10-10T21:51:22Z) - From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Current Topological and Machine Learning Applications for Bias Detection
in Text [4.799066966918178]
本研究はRedditBiasデータベースを用いてテキストバイアスの分析を行う。
BERTおよびRoBERTaの変種を含む4つの変圧器モデルについて検討した。
発見によるとBERT、特にミニBERTはバイアス分類に優れており、多言語モデルは遅延している。
論文 参考訳(メタデータ) (2023-11-22T16:12:42Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。