論文の概要: Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes
- arxiv url: http://arxiv.org/abs/2402.01981v1
- Date: Sat, 3 Feb 2024 01:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:02:19.501407
- Title: Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes
- Title(参考訳): 自己劣化型大規模言語モデル:ゼロショット認識とステレオタイプ削減
- Authors: Isabel O. Gallegos, Ryan A. Rossi, Joe Barrow, Md Mehrab Tanjim, Tong
Yu, Hanieh Deilamsalehy, Ruiyi Zhang, Sungchul Kim, Franck Dernoncourt
- Abstract要約: ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
- 参考スコア(独自算出の注目度): 73.12947922129261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable advances in language
generation and understanding but are also prone to exhibiting harmful social
biases. While recognition of these behaviors has generated an abundance of bias
mitigation techniques, most require modifications to the training data, model
parameters, or decoding strategy, which may be infeasible without access to a
trainable model. In this work, we leverage the zero-shot capabilities of LLMs
to reduce stereotyping in a technique we introduce as zero-shot self-debiasing.
With two approaches, self-debiasing via explanation and self-debiasing via
reprompting, we show that self-debiasing can significantly reduce the degree of
stereotyping across nine different social groups while relying only on the LLM
itself and a simple prompt, with explanations correctly identifying invalid
assumptions and reprompting delivering the greatest reductions in bias. We hope
this work opens inquiry into other zero-shot techniques for bias mitigation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語生成と理解において顕著な進歩を示したが、有害な社会的偏見を示す傾向がある。
これらの行動の認識は、バイアス軽減手法を多数生み出しているが、ほとんどの場合、トレーニングデータ、モデルパラメータ、あるいはデコード戦略の変更が必要であり、トレーニング可能なモデルにアクセスできない可能性がある。
本研究では, LLMのゼロショット機能を活用し, ゼロショット自己劣化技術として導入したステレオタイピングを低減する。
リプロンプトによる自己退化と自己退化という2つのアプローチにより、自己退化は、LLM自体と単純なプロンプトにのみ依存しながら、9つの異なる社会グループ間でのステレオタイピングの度合いを著しく低減し、不正な仮定を正しく識別し、バイアスの最大化を実現する。
この研究がバイアス軽減のための他のゼロショット技術の調査をオープンにすることを願っている。
関連論文リスト
- Cognitive Bias in High-Stakes Decision-Making with LLMs [21.322551161016463]
我々は,大規模言語モデル(LLM)における認知バイアスの発見,評価,緩和を目的としたフレームワークを開発する。
心理学と認知科学の先行研究に触発され、16,800のプロンプトを含むデータセットを開発し、異なる認知バイアスを評価する。
我々は,LSMを用いた新たな手法を提案する中で,様々なバイアス緩和策を検証した。
論文 参考訳(メタデータ) (2024-02-25T02:35:56Z) - Perils of Self-Feedback: Self-Bias Amplifies in Large Language Models [79.5116305401044]
セルフフィードバックは、特定のタスクにおいて大きな言語モデル(LLM)を改善し、他のタスクを悪化させる。
近年の研究では、自己フィードバックは特定のタスクにおいて大きな言語モデル(LLM)を改善する一方で、他のタスクを悪化させることが示されている。
本稿は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Prompt-Based Bias Calibration for Better Zero/Few-Shot Learning of
Language Models [7.967925911756304]
事前学習された言語モデルに符号化された固有バイアスを校正するヌルインプットプロンプト法を提案する。
本手法は,テキスト内学習とプロンプトベースファインタニングの両方において,LMのゼロ/ファインショット学習性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-15T22:54:24Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Right for the Right Latent Factors: Debiasing Generative Models via
Disentanglement [20.41752850243945]
統計機械学習手法の主要な前提は、テスト時に遭遇したデータの分布から独立したサンプルにアクセスすることである。
特に、機械学習モデルは、Clever-Hansのような振る舞いを示すことが示されている。
本稿では,人的フィードバックによって達成される内部表現を解消し,生成モデルをデバイアス化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-01T13:16:18Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。