論文の概要: OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2309.03876v1
- Date: Thu, 7 Sep 2023 17:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 11:56:07.576280
- Title: OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs
- Title(参考訳): OpinionGPT: 命令修飾LDMにおける明示的ビアーゼのモデル化
- Authors: Patrick Haller, Ansar Aynetdinov, Alan Akbik
- Abstract要約: ユーザが質問し、調査したいすべてのバイアスを選択できるWebデモであるOpinionGPTを提示する。
デモでは、選択されたバイアスのそれぞれを表すテキストに微調整されたモデルを使用して、この質問に答える。
基礎となるモデルをトレーニングするために、11の異なるバイアス(政治的、地理的、性別、年齢)を特定し、各回答がこれらの階層の1人によって書かれた指導学習コーパスを導出した。
- 参考スコア(独自算出の注目度): 3.5342505775640247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) have recently showcased
remarkable ability to generate fitting responses to natural language
instructions. However, an open research question concerns the inherent biases
of trained models and their responses. For instance, if the data used to tune
an LLM is dominantly written by persons with a specific political bias, we
might expect generated answers to share this bias. Current research work seeks
to de-bias such models, or suppress potentially biased answers. With this
demonstration, we take a different view on biases in instruction-tuning: Rather
than aiming to suppress them, we aim to make them explicit and transparent. To
this end, we present OpinionGPT, a web demo in which users can ask questions
and select all biases they wish to investigate. The demo will answer this
question using a model fine-tuned on text representing each of the selected
biases, allowing side-by-side comparison. To train the underlying model, we
identified 11 different biases (political, geographic, gender, age) and derived
an instruction-tuning corpus in which each answer was written by members of one
of these demographics. This paper presents OpinionGPT, illustrates how we
trained the bias-aware model and showcases the web application (available at
https://opiniongpt.informatik.hu-berlin.de).
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)は、最近、自然言語命令に適合する応答を生成する顕著な能力を示した。
しかしながら、オープンな研究課題は、訓練されたモデルの本質的なバイアスとその応答に関するものである。
例えば、llmをチューニングするために使用されるデータが特定の政治的偏見を持つ人によって支配的に書かれた場合、このバイアスを共有するために生成された回答が期待できる。
現在の研究は、そのようなモデルのバイアスを減らしたり、バイアスのある答えを抑えることを目指している。
このデモンストレーションでは、インストラクションチューニングにおけるバイアスについて、別の見方を採っている: それらを抑制するのではなく、明示的で透明なものにすることを目指している。
この目的のために,ユーザが質問し,調査したいすべてのバイアスを選択できるWebデモであるOpinionGPTを紹介する。
デモでは、選択したバイアスを表すテキストに微調整されたモデルを使って、この質問に答える。
基礎となるモデルをトレーニングするために,11種類の異なるバイアス(政治的,地理的,性別,年齢)を特定し,各回答が1人の人口構成員によって書かれた学習コーパスを作成した。
本稿では,バイアス認識モデルをトレーニングした上で,webアプリケーションを紹介する(https://opiniongpt.informatik.hu-berlin.de)。
関連論文リスト
- From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Evaluating Nuanced Bias in Large Language Model Free Response Answers [8.775925011558995]
複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T19:58:13Z) - Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - It's All Relative: Interpretable Models for Scoring Bias in Documents [10.678219157857946]
本稿では,テキストコンテンツのみに基づいて,Webドキュメントに存在するバイアスを評価するための解釈可能なモデルを提案する。
我々のモデルはBradley-Terryの公理を思わせる仮定を取り入れ、同じウィキペディアの記事の2つの修正に基づいて訓練されている。
我々は、訓練されたモデルのパラメータを解釈して、最も偏りを示す単語を見つけることができることを示す。
論文 参考訳(メタデータ) (2023-07-16T19:35:38Z) - Soft-prompt Tuning for Large Language Models to Evaluate Bias [0.03141085922386211]
ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
論文 参考訳(メタデータ) (2023-06-07T19:11:25Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。