論文の概要: Reducing Political Manipulation with Consistency Training
- arxiv url: http://arxiv.org/abs/2605.22771v2
- Date: Thu, 28 May 2026 14:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.534444
- Title: Reducing Political Manipulation with Consistency Training
- Title(参考訳): 一貫性トレーニングによる政治マニピュレーションの削減
- Authors: Long Phan, Devin Kim, Alexander Pan, Alice Blair, Adam Khoja, Dan Hendrycks,
- Abstract要約: 大規模言語モデル(LLM)は、様々なセンシティブな文脈において、体系的な政治的バイアスを示す。
我々は、この現象を隠蔽的な政治的偏見と呼び、それが機能する7つのテクニックのカテゴリを特定します。
- 参考スコア(独自算出の注目度): 47.17237436864747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart topics from opposing political sides asymmetrically. We refer to this phenomenon as covert political bias and identify 7 categories of techniques through which it operates. We propose two metrics for covert bias: Sentiment Consistency measures symmetry in rhetoric and framing across paired political prompts; Helpfulness Consistency measures symmetric depth and engagement. To reduce both types of covert bias, we introduce Political Consistency Training (PCT), an RL training method with two complementary paradigms: Sentiment Consistency Training and Helpfulness Consistency Training. We show that PCT preserves overall helpfulness, substantially reduces covert political bias, and generalizes to held-out benchmarks. We release our work at https://political-manipulation.ai
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なセンシティブな文脈において、体系的な政治的バイアスを示す。
LLMは対立する政治的側面のトピックを非対称に扱う。
我々は、この現象を隠蔽的な政治的偏見と呼び、それが機能するテクニックの7つのカテゴリを特定します。
本稿では,2つの隠蔽バイアス尺度を提案する。感性一貫性は2つの政治的プロンプトをまたいだ修辞的およびフレーミングにおける対称性を測る。
両種類の隠蔽バイアスを低減するために,感性整合トレーニングとヘルプフルネス整合トレーニングという2つの相補的パラダイムを持つRLトレーニング手法である政治整合トレーニング(PCT)を導入する。
我々はPCTが全体的な有用性を保ち、政治的バイアスを大幅に減らし、ホールドアウトベンチマークに一般化することを示した。
私たちはhttps://political-manipulation.aiで作業をリリースしています。
関連論文リスト
- Democratic or Authoritarian? Probing a New Dimension of Political Biases in Large Language Models [72.89977583150748]
本研究では,大規模言語モデルとより広い地政学的価値システムとの整合性を評価する新しい手法を提案する。
LLMは一般的に民主的価値観や指導者を好んでいるが、マンダリンでの権威主義的人物に対する好意が増している。
論文 参考訳(メタデータ) (2025-06-15T07:52:07Z) - The Impact of Persona-based Political Perspectives on Hateful Content Detection [4.04666623219944]
政治的に多様な言語モデルは、多くの研究者や組織にアクセスできない計算資源を必要とする。
近年の研究では、ペルソナをベースとしたプロンプトが、追加の訓練なしに、モデルアウトプットに政治的多様性をもたらすことが確認されている。
本稿では、下流業務における政治的事前訓練に匹敵する結果が得られるかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-01T09:53:17Z) - Political-LLM: Large Language Models in Political Science [159.95299889946637]
大規模言語モデル(LLM)は、政治科学のタスクで広く採用されている。
政治LLMは、LLMを計算政治科学に統合する包括的な理解を促進することを目的としている。
論文 参考訳(メタデータ) (2024-12-09T08:47:50Z) - Measuring Political Bias in Large Language Models: What Is Said and How It Is Said [46.1845409187583]
政治問題に関するコンテンツの内容とスタイルの両方を分析し,LLMにおける政治的偏見を測定することを提案する。
提案尺度は, 生殖権や気候変動などの異なる政治課題を, それらのバイアスの内容(世代的物質)と様式(語彙的極性)の両方で考察する。
論文 参考訳(メタデータ) (2024-03-27T18:22:48Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Inducing Political Bias Allows Language Models Anticipate Partisan
Reactions to Controversies [5.958974943807783]
本研究では,Large Language Models (LLMs) を用いたデジタル談話における政治的偏見の理解の課題に対処する。
本稿では,Partisan Bias Divergence AssessmentとPartisan Class Tendency Predictionからなる包括的分析フレームワークを提案する。
以上の結果から,感情的・道徳的ニュアンスを捉えたモデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-11-16T08:57:53Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - A Machine Learning Pipeline to Examine Political Bias with Congressional
Speeches [0.3062386594262859]
私たちは、2つのイデオロギー的に多様なソーシャルメディアフォーラム、GabとTwitterで、政治的偏見を研究するための機械学習アプローチを提供します。
提案手法は,米国議会の政治演説から収集したテキストを用いて,そのデータをラベル付けする手法である。
また、カスケードとテキストの特徴を組み合わせて、カスケードの政治的偏見を約85%の精度で予測する機械学習アプローチを提案する。
論文 参考訳(メタデータ) (2021-09-18T21:15:21Z) - Mitigating Political Bias in Language Models Through Reinforced
Calibration [6.964628305312507]
GPT-2 世代における政治的偏見を測定する指標について述べる。
生成テキストにおける政治的バイアスを緩和するための強化学習(RL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T07:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。