論文の概要: Identifying the sources of ideological bias in GPT models through linguistic variation in output
- arxiv url: http://arxiv.org/abs/2409.06043v1
- Date: Mon, 9 Sep 2024 20:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:51:02.440659
- Title: Identifying the sources of ideological bias in GPT models through linguistic variation in output
- Title(参考訳): 出力の言語的変動によるGPTモデルのイデオロギーバイアス源の同定
- Authors: Christina Walker, Joan C. Timoneda,
- Abstract要約: 我々は、政治的態度の対照的な国における言語変化を利用して、センシティブな政治トピックに対するGPT応答のバイアスを評価する。
GPTのアウトプットは、保守的な社会によく対応している言語ではより保守的である。
GPT-3.5で見られる言語間の差異は、OpenAIのフィルタリングポリシーのため、GPT-4の方がはるかにリベラルであるにもかかわらず、GPT-4で持続する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extant work shows that generative AI models such as GPT-3.5 and 4 perpetuate social stereotypes and biases. One concerning but less explored source of bias is ideology. Do GPT models take ideological stances on politically sensitive topics? In this article, we provide an original approach to identifying ideological bias in generative models, showing that bias can stem from both the training data and the filtering algorithm. We leverage linguistic variation in countries with contrasting political attitudes to evaluate bias in average GPT responses to sensitive political topics in those languages. First, we find that GPT output is more conservative in languages that map well onto conservative societies (i.e., Polish), and more liberal in languages used uniquely in liberal societies (i.e., Swedish). This result provides strong evidence of training data bias in GPT models. Second, differences across languages observed in GPT-3.5 persist in GPT-4, even though GPT-4 is significantly more liberal due to OpenAI's filtering policy. Our main takeaway is that generative model training must focus on high-quality, curated datasets to reduce bias, even if it entails a compromise in training data size. Filtering responses after training only introduces new biases and does not remove the underlying training biases.
- Abstract(参考訳): 現存する研究は、GPT-3.5や4のような生成AIモデルが社会的なステレオタイプとバイアスを永続させることを示している。
偏見の源泉は、イデオロギー(イデオロギー)である。
GPTモデルは政治に敏感なトピックに対してイデオロギー的スタンスを取るか?
本稿では、生成モデルにおけるイデオロギーバイアスを特定するための独自のアプローチを提案し、バイアスがトレーニングデータとフィルタリングアルゴリズムの両方から生じることを示す。
比較的な政治的態度を持つ国の言語変化を利用して、これらの言語におけるセンシティブな政治トピックに対する平均的なGPT応答のバイアスを評価する。
まず、GPTの出力は保守的な社会(ポーランド語)によく対応している言語では保守的であり、リベラルな社会(スウェーデン語)では独自の言語ではリベラルである。
この結果は、GPTモデルにおけるトレーニングデータバイアスの強い証拠となる。
第2に、GPT-3.5で見られる言語間の差異は、OpenAIのフィルタリングポリシーにより、GPT-4の方がはるかにリベラルであるにもかかわらず、GPT-4で持続する。
生成モデルトレーニングの主な特徴は、たとえトレーニングデータサイズに妥協が必要であったとしても、バイアスを減らすために、高品質でキュレートされたデータセットに焦点を合わせなければならない、ということです。
トレーニング後のフィルタリングレスポンスは、新しいバイアスのみを導入し、基礎となるトレーニングバイアスを除去しない。
関連論文リスト
- Is GPT-4 Less Politically Biased than GPT-3.5? A Renewed Investigation of ChatGPT's Political Biases [0.0]
本稿では,ChatGPTの政治的バイアスと性格特性について検討し,特にGPT-3.5とGPT-4を比較した。
政治コンパステストとビッグファイブパーソナリティテストはそれぞれのシナリオに100回採用されました。
その結果, GPT-3.5 と GPT-4 の違いを解析するために, 計算平均, 標準偏差, 重要度試験を行った。
人間の研究に相互依存していることが示されている特徴について、相関関係が発見された。
論文 参考訳(メタデータ) (2024-10-28T13:32:52Z) - From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - On the Relationship between Truth and Political Bias in Language Models [22.57096615768638]
我々は、言語モデルアライメントと政治科学の両方に不可欠な2つの概念の関係を分析することに注力する。
我々は、様々な人気真実性データセットの報酬モデルを訓練し、彼らの政治的偏見を評価する。
以上の結果から,これらのデータセットの真正性に対する報酬モデルの最適化は,政治的偏見を左右する傾向にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-09T02:28:53Z) - LLMs left, right, and center: Assessing GPT's capabilities to label political bias from web domains [0.0]
本研究では,現在最先端の大規模言語モデルである OpenAI の GPT-4 が,URLのみに基づいて,ニュースソースの政治的バイアスを正確に分類できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-07-19T14:28:07Z) - Representation Bias in Political Sample Simulations with Large Language Models [54.48283690603358]
本研究は,大規模言語モデルを用いた政治サンプルのシミュレーションにおけるバイアスの同定と定量化を目的とする。
GPT-3.5-Turboモデルを用いて、米国選挙研究、ドイツ縦割り選挙研究、ズオビアオデータセット、中国家族パネル研究のデータを活用する。
論文 参考訳(メタデータ) (2024-07-16T05:52:26Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。
我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Mitigating Political Bias in Language Models Through Reinforced
Calibration [6.964628305312507]
GPT-2 世代における政治的偏見を測定する指標について述べる。
生成テキストにおける政治的バイアスを緩和するための強化学習(RL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T07:21:30Z) - How True is GPT-2? An Empirical Analysis of Intersectional Occupational
Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。
一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。
特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文 参考訳(メタデータ) (2021-02-08T11:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。