論文の概要: Detecting Natural Language Biases with Prompt-based Learning
- arxiv url: http://arxiv.org/abs/2309.05227v1
- Date: Mon, 11 Sep 2023 04:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 13:47:30.202650
- Title: Detecting Natural Language Biases with Prompt-based Learning
- Title(参考訳): プロンプト学習による自然言語バイアスの検出
- Authors: Md Abdul Aowal, Maliha T Islam, Priyanka Mary Mammen, Sandesh Shetty
- Abstract要約: 本研究では,(1)性別,(2)人種,(3)性的指向,(4)宗教に基づく4種類の偏見を示すプロンプトを設計する方法について検討する。
これらのプロンプトは、BERT、RoBERTa、T5といった人気モデルやよく認識されているモデルの様々なバリエーションに適用し、それらのバイアスを評価する。
モデル予測にバイアスがあるかどうかを判断するために人的判断を用い、モデルレベルの判断(さらなるプロンプトを通じて)を使用して、モデルが自身の予測のバイアスを自己診断できるかどうかを理解する。
- 参考スコア(独自算出の注目度): 0.3749861135832073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this project, we want to explore the newly emerging field of prompt
engineering and apply it to the downstream task of detecting LM biases. More
concretely, we explore how to design prompts that can indicate 4 different
types of biases: (1) gender, (2) race, (3) sexual orientation, and (4)
religion-based. Within our project, we experiment with different manually
crafted prompts that can draw out the subtle biases that may be present in the
language model. We apply these prompts to multiple variations of popular and
well-recognized models: BERT, RoBERTa, and T5 to evaluate their biases. We
provide a comparative analysis of these models and assess them using a two-fold
method: use human judgment to decide whether model predictions are biased and
utilize model-level judgment (through further prompts) to understand if a model
can self-diagnose the biases of its own prediction.
- Abstract(参考訳): このプロジェクトでは,新たに出現するプロンプトエンジニアリングの分野を探求し,lmバイアス検出の下流タスクに適用したい。
より具体的には、(1)性別、(2)人種、(3)性的指向、(4)宗教に基づく4種類の偏見を示すプロンプトを設計する方法を検討する。
私たちのプロジェクトでは、言語モデルに現れる微妙なバイアスを引き出すための、さまざまな手作業によるプロンプトを試しています。
これらのプロンプトを、BERT、RoBERTa、T5といった人気モデルに応用し、バイアスを評価する。
モデル予測が偏っているかどうかを人間の判断を用いて判断し、モデルレベルの判断を(さらなるプロンプトを通じて)活用し、モデルが自身の予測の偏りを自己診断できるかどうかを理解する。
関連論文リスト
- Current Topological and Machine Learning Applications for Bias Detection
in Text [4.799066966918178]
本研究はRedditBiasデータベースを用いてテキストバイアスの分析を行う。
BERTおよびRoBERTaの変種を含む4つの変圧器モデルについて検討した。
発見によるとBERT、特にミニBERTはバイアス分類に優れており、多言語モデルは遅延している。
論文 参考訳(メタデータ) (2023-11-22T16:12:42Z) - Intentional Biases in LLM Responses [0.0]
Falcon-7bのようなオープンソースモデルとOpen AIのGPT-4モデルの違いについて検討する。
専門家モデルと監督官が混合したGPT-4のガードレールは,様々な視点でペルソナを構築するのに有害であることがわかった。
論文 参考訳(メタデータ) (2023-11-11T19:59:24Z) - Soft-prompt Tuning for Large Language Models to Evaluate Bias [0.03141085922386211]
ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
論文 参考訳(メタデータ) (2023-06-07T19:11:25Z) - This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language
Models [12.214260053244871]
言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業の本体を分析します。
我々は、バイアステストが測定する目的を捉える属性の分類を作成するために、測定モデリングフレームワークを設計する。
我々の分析は、フィールドが測定できる可能性のあるバイアスタイプの範囲を照らし、まだ調査されていないタイプを明らかにします。
論文 参考訳(メタデータ) (2023-05-22T06:28:48Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Using Natural Sentences for Understanding Biases in Language Models [10.604991889372092]
ウィキペディアの現実世界の自然文から収集した職業に関する素早いデータセットを作成する。
バイアス評価はテンプレートプロンプトの設計選択に非常に敏感である。
本研究では, 自然文のプロンプトを体系的な評価に用いて, 観察に偏見をもたらす可能性のある設計選択から脱却することを提案する。
論文 参考訳(メタデータ) (2022-05-12T18:36:33Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。