論文の概要: Identifying and Measuring Token-Level Sentiment Bias in Pre-trained
Language Models with Prompts
- arxiv url: http://arxiv.org/abs/2204.07289v1
- Date: Fri, 15 Apr 2022 02:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 23:10:02.410290
- Title: Identifying and Measuring Token-Level Sentiment Bias in Pre-trained
Language Models with Prompts
- Title(参考訳): プロンプト付き事前学習言語モデルにおけるトークンレベル知覚バイアスの同定と測定
- Authors: Apoorv Garg, Deval Srivastava, Zhiyang Xu, Lifu Huang
- Abstract要約: 大規模事前訓練言語モデル(PLM)は、社会の多くの側面において広く採用されている。
近年のプロンプトチューニングの進歩は, PLMの内部機構を探求する可能性を示している。
我々は2つのトークンレベル感情テストを提案する: 感性アソシエーションテスト(SAT)と感性シフトテスト(SST)。
- 参考スコア(独自算出の注目度): 7.510757198308537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the superior performance, large-scale pre-trained language models
(PLMs) have been widely adopted in many aspects of human society. However, we
still lack effective tools to understand the potential bias embedded in the
black-box models. Recent advances in prompt tuning show the possibility to
explore the internal mechanism of the PLMs. In this work, we propose two
token-level sentiment tests: Sentiment Association Test (SAT) and Sentiment
Shift Test (SST) which utilize the prompt as a probe to detect the latent bias
in the PLMs. Our experiments on the collection of sentiment datasets show that
both SAT and SST can identify sentiment bias in PLMs and SST is able to
quantify the bias. The results also suggest that fine-tuning can possibly
augment the existing bias in PLMs.
- Abstract(参考訳): 優れた性能のため、人間社会では大規模事前学習言語モデル(plm)が広く採用されている。
しかし、ブラックボックスモデルに埋め込まれた潜在的なバイアスを理解するための効果的なツールがない。
近年のプロンプトチューニングの進歩は, PLMの内部機構を探求する可能性を示している。
本研究では, PLMの潜伏バイアスを検出するために, プロンプトをプローブとして利用する感性アソシエーションテスト(SAT)と感性シフトテスト(SST)の2つのトークンレベル感情テストを提案する。
感情データセットの収集実験により、SATとSSTはPLMの感情バイアスを識別でき、SSTはバイアスを定量化できることが示された。
その結果、微調整がPLMの既存のバイアスを増大させる可能性が示唆された。
関連論文リスト
- A Novel Interpretability Metric for Explaining Bias in Language Models: Applications on Multilingual Models from Southeast Asia [0.3376269351435396]
事前学習言語モデル(PLM)におけるバイアス行動に対するトークンレベルの寄与を測定するための新しい指標を提案する。
東南アジアのPLMにおいて性差別と同性愛バイアスの存在が確認された。
解釈可能性と意味分析は、PLMバイアスが犯罪、親密な関係、助けに関する言葉によって強く引き起こされることを示している。
論文 参考訳(メタデータ) (2024-10-20T18:31:05Z) - Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。
我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-20T07:40:12Z) - Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。
これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。
本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。
論文 参考訳(メタデータ) (2024-07-11T12:30:19Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Bias A-head? Analyzing Bias in Transformer-Based Language Model Attention Heads [17.455607526521295]
そこで本研究では,PLMの定型バイアスに寄与する少数のバイアスヘッドを探索し,同定するためのバイアス分析フレームワークを提案する。
本稿では,トランスフォーマーをベースとした2種類のPLM(エンコーダベースBERTモデル)とデコーダベース自己回帰GPTモデル(デコーダベースGPTモデル)において,英語の性差と人種バイアスについて検討する。
論文 参考訳(メタデータ) (2023-11-17T08:56:13Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - ADEPT: A DEbiasing PrompT Framework [49.582497203415855]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。
意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。
本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:41:40Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。