論文の概要: On the Relationship between Truth and Political Bias in Language Models
- arxiv url: http://arxiv.org/abs/2409.05283v1
- Date: Mon, 9 Sep 2024 02:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:00:52.359862
- Title: On the Relationship between Truth and Political Bias in Language Models
- Title(参考訳): 言語モデルにおける真理と政治的バイアスの関係について
- Authors: Suyash Fulay, William Brannon, Shrestha Mohanty, Cassandra Overney, Elinor Poole-Dayan, Deb Roy, Jad Kabbara,
- Abstract要約: 我々は、言語モデルアライメントと政治科学の両方に不可欠な2つの概念の関係を分析する。
我々は、様々な人気真実性データセットの報酬モデルを訓練し、彼らの政治的偏見を評価する。
以上の結果から,これらのデータセットの真正性に対する報酬モデルの最適化は,政治的偏見を左右する傾向にあることが明らかとなった。
- 参考スコア(独自算出の注目度): 22.57096615768638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model alignment research often attempts to ensure that models are not only helpful and harmless, but also truthful and unbiased. However, optimizing these objectives simultaneously can obscure how improving one aspect might impact the others. In this work, we focus on analyzing the relationship between two concepts essential in both language model alignment and political science: \textit{truthfulness} and \textit{political bias}. We train reward models on various popular truthfulness datasets and subsequently evaluate their political bias. Our findings reveal that optimizing reward models for truthfulness on these datasets tends to result in a left-leaning political bias. We also find that existing open-source reward models (i.e. those trained on standard human preference datasets) already show a similar bias and that the bias is larger for larger models. These results raise important questions about both the datasets used to represent truthfulness and what language models capture about the relationship between truth and politics.
- Abstract(参考訳): 言語モデルアライメントの研究は、モデルが有用で害のないだけでなく、真実で偏見のないものであることを保証するためにしばしば試みる。
しかし、これらの目的を同時に最適化することは、ある側面の改善が他の側面にどのように影響するかを曖昧にする可能性がある。
本研究では,言語モデルアライメントと政治科学の両立に不可欠な2つの概念の関係を分析することに注力する。
我々は、様々な人気真実性データセットの報酬モデルを訓練し、その後、彼らの政治的偏見を評価する。
以上の結果から,これらのデータセットの真正性に対する報酬モデルの最適化は,政治的偏見を左右する傾向にあることが明らかとなった。
また、既存のオープンソース報酬モデル(つまり、標準的な人間の嗜好データセットでトレーニングされたモデル)も、同様のバイアスを示しており、より大きなモデルではバイアスが大きいこともわかりました。
これらの結果は、真理を表現するために使用されるデータセットと、真理と政治の関係に関する言語モデルについて、重要な疑問を提起する。
関連論文リスト
- Balancing Transparency and Accuracy: A Comparative Analysis of Rule-Based and Deep Learning Models in Political Bias Classification [5.550237524713089]
この研究は、制約のないデータ摂取に対する現代の自己学習システムの感受性を強調している。
両モデルを左利き(CNN)と右利き(FOX)のニュース記事に適用し、元のトレーニングやテストセットを超えたデータ上での有効性を評価する。
深層学習モデルの不透明なアーキテクチャと言語情報に基づくルールベースモデルの透明性を対比する。
論文 参考訳(メタデータ) (2024-11-07T00:09:18Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - High Risk of Political Bias in Black Box Emotion Inference Models [0.0]
本稿では、社会科学研究における感情分析(SA)に使用される機械学習モデルにおける政治的バイアスの存在について検討する。
ポーランドの感情分析モデルを用いた偏見調査を行った。
以上の結果から, 人間のラテンダーによるアノテーションは, モデルの予測に政治的偏見を伝播させることが示唆された。
論文 参考訳(メタデータ) (2024-07-18T20:31:07Z) - Representation Bias in Political Sample Simulations with Large Language Models [54.48283690603358]
本研究は,大規模言語モデルを用いた政治サンプルのシミュレーションにおけるバイアスの同定と定量化を目的とする。
GPT-3.5-Turboモデルを用いて、米国選挙研究、ドイツ縦割り選挙研究、ズオビアオデータセット、中国家族パネル研究のデータを活用する。
論文 参考訳(メタデータ) (2024-07-16T05:52:26Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - It's All Relative: Interpretable Models for Scoring Bias in Documents [10.678219157857946]
本稿では,テキストコンテンツのみに基づいて,Webドキュメントに存在するバイアスを評価するための解釈可能なモデルを提案する。
我々のモデルはBradley-Terryの公理を思わせる仮定を取り入れ、同じウィキペディアの記事の2つの修正に基づいて訓練されている。
我々は、訓練されたモデルのパラメータを解釈して、最も偏りを示す単語を見つけることができることを示す。
論文 参考訳(メタデータ) (2023-07-16T19:35:38Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Mitigating Political Bias in Language Models Through Reinforced
Calibration [6.964628305312507]
GPT-2 世代における政治的偏見を測定する指標について述べる。
生成テキストにおける政治的バイアスを緩和するための強化学習(RL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T07:21:30Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Inflating Topic Relevance with Ideology: A Case Study of Political
Ideology Bias in Social Topic Detection Models [16.279854003220418]
トレーニングデータにおける政治的イデオロギーバイアスの影響について検討する。
私たちの研究は、人間の選択した入力からバイアスを伝達する、大規模で複雑なモデルの受容性を強調します。
偏見を緩和する手段として,政治的イデオロギーに不変なテキスト表現の学習を提案する。
論文 参考訳(メタデータ) (2020-11-29T05:54:03Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。