論文の概要: OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2309.03876v1
- Date: Thu, 7 Sep 2023 17:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 11:56:07.576280
- Title: OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs
- Title(参考訳): OpinionGPT: 命令修飾LDMにおける明示的ビアーゼのモデル化
- Authors: Patrick Haller, Ansar Aynetdinov, Alan Akbik
- Abstract要約: ユーザが質問し、調査したいすべてのバイアスを選択できるWebデモであるOpinionGPTを提示する。
デモでは、選択されたバイアスのそれぞれを表すテキストに微調整されたモデルを使用して、この質問に答える。
基礎となるモデルをトレーニングするために、11の異なるバイアス(政治的、地理的、性別、年齢)を特定し、各回答がこれらの階層の1人によって書かれた指導学習コーパスを導出した。
- 参考スコア(独自算出の注目度): 3.5342505775640247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) have recently showcased
remarkable ability to generate fitting responses to natural language
instructions. However, an open research question concerns the inherent biases
of trained models and their responses. For instance, if the data used to tune
an LLM is dominantly written by persons with a specific political bias, we
might expect generated answers to share this bias. Current research work seeks
to de-bias such models, or suppress potentially biased answers. With this
demonstration, we take a different view on biases in instruction-tuning: Rather
than aiming to suppress them, we aim to make them explicit and transparent. To
this end, we present OpinionGPT, a web demo in which users can ask questions
and select all biases they wish to investigate. The demo will answer this
question using a model fine-tuned on text representing each of the selected
biases, allowing side-by-side comparison. To train the underlying model, we
identified 11 different biases (political, geographic, gender, age) and derived
an instruction-tuning corpus in which each answer was written by members of one
of these demographics. This paper presents OpinionGPT, illustrates how we
trained the bias-aware model and showcases the web application (available at
https://opiniongpt.informatik.hu-berlin.de).
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)は、最近、自然言語命令に適合する応答を生成する顕著な能力を示した。
しかしながら、オープンな研究課題は、訓練されたモデルの本質的なバイアスとその応答に関するものである。
例えば、llmをチューニングするために使用されるデータが特定の政治的偏見を持つ人によって支配的に書かれた場合、このバイアスを共有するために生成された回答が期待できる。
現在の研究は、そのようなモデルのバイアスを減らしたり、バイアスのある答えを抑えることを目指している。
このデモンストレーションでは、インストラクションチューニングにおけるバイアスについて、別の見方を採っている: それらを抑制するのではなく、明示的で透明なものにすることを目指している。
この目的のために,ユーザが質問し,調査したいすべてのバイアスを選択できるWebデモであるOpinionGPTを紹介する。
デモでは、選択したバイアスを表すテキストに微調整されたモデルを使って、この質問に答える。
基礎となるモデルをトレーニングするために,11種類の異なるバイアス(政治的,地理的,性別,年齢)を特定し,各回答が1人の人口構成員によって書かれた学習コーパスを作成した。
本稿では,バイアス認識モデルをトレーニングした上で,webアプリケーションを紹介する(https://opiniongpt.informatik.hu-berlin.de)。
関連論文リスト
- Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Pachinko: Patching Interpretable QA Models through Natural Language
Feedback [58.42753581189251]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
これらの有理性の様々な形式を、関心の明確な性質によって異なるものとみなす。
評定に影響を及ぼすことに加えて、一部のフォーマットは、ユーザーが報告したモデル出力の理解と信頼を著しく向上させる。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Detecting Natural Language Biases with Prompt-based Learning [0.3749861135832073]
本研究では,(1)性別,(2)人種,(3)性的指向,(4)宗教に基づく4種類の偏見を示すプロンプトを設計する方法について検討する。
これらのプロンプトは、BERT、RoBERTa、T5といった人気モデルやよく認識されているモデルの様々なバリエーションに適用し、それらのバイアスを評価する。
モデル予測にバイアスがあるかどうかを判断するために人的判断を用い、モデルレベルの判断(さらなるプロンプトを通じて)を使用して、モデルが自身の予測のバイアスを自己診断できるかどうかを理解する。
論文 参考訳(メタデータ) (2023-09-11T04:20:36Z) - It's All Relative: Interpretable Models for Scoring Bias in Documents [10.678219157857946]
本稿では,テキストコンテンツのみに基づいて,Webドキュメントに存在するバイアスを評価するための解釈可能なモデルを提案する。
我々のモデルはBradley-Terryの公理を思わせる仮定を取り入れ、同じウィキペディアの記事の2つの修正に基づいて訓練されている。
我々は、訓練されたモデルのパラメータを解釈して、最も偏りを示す単語を見つけることができることを示す。
論文 参考訳(メタデータ) (2023-07-16T19:35:38Z) - Soft-prompt Tuning for Large Language Models to Evaluate Bias [0.03141085922386211]
ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
論文 参考訳(メタデータ) (2023-06-07T19:11:25Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - BBQ: A Hand-Built Bias Benchmark for Question Answering [25.108222728383236]
NLPモデルは、世界に存在する社会的バイアスを学習することは十分に文書化されているが、これらのバイアスが、質問応答(QA)のような適用されたタスクに対して、実際のモデルアウトプットにどのように現れるかを示す研究はほとんど行われていない。
筆者らによって構築された質問セットからなるデータセットであるBias Benchmark for QA (BBQ)を導入し、米国英語の文脈に関連する9つの異なる社会的次元に沿って、保護されたクラスに属する人々に対するテキストテストされた社会的偏見を強調した。
文脈が曖昧であるとき、モデルはステレオタイプに強く依存していることが分かり、つまり、モデルの出力は、この設定において有害なバイアスを一貫して再現する。
論文 参考訳(メタデータ) (2021-10-15T16:43:46Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。