論文の概要: On the Inevitability of Left-Leaning Political Bias in Aligned Language Models
- arxiv url: http://arxiv.org/abs/2507.15328v1
- Date: Mon, 21 Jul 2025 07:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.301022
- Title: On the Inevitability of Left-Leaning Political Bias in Aligned Language Models
- Title(参考訳): 言語モデルにおける左派政治的バイアスの不可避性について
- Authors: Thilo Hagendorff,
- Abstract要約: 大型言語モデル(LLM)が左派政治的偏見を示すという懸念がある。
私は、無害で正直に訓練されたインテリジェントなシステムは、必ずしも左翼の政治的偏見を示さなければならないと論じます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The guiding principle of AI alignment is to train large language models (LLMs) to be harmless, helpful, and honest (HHH). At the same time, there are mounting concerns that LLMs exhibit a left-wing political bias. Yet, the commitment to AI alignment cannot be harmonized with the latter critique. In this article, I argue that intelligent systems that are trained to be harmless and honest must necessarily exhibit left-wing political bias. Normative assumptions underlying alignment objectives inherently concur with progressive moral frameworks and left-wing principles, emphasizing harm avoidance, inclusivity, fairness, and empirical truthfulness. Conversely, right-wing ideologies often conflict with alignment guidelines. Yet, research on political bias in LLMs is consistently framing its insights about left-leaning tendencies as a risk, as problematic, or concerning. This way, researchers are actively arguing against AI alignment, tacitly fostering the violation of HHH principles.
- Abstract(参考訳): AIアライメントの指針は、大規模言語モデル(LLM)を無害で役に立ち、誠実(HHH)に訓練することだ。
同時に、LLMが左翼の政治的偏見を示すという懸念も高まっている。
しかし、AIアライメントへのコミットメントは、後者の批判と調和できない。
この記事では、無害で正直に訓練されたインテリジェントなシステムは、必ずしも左翼の政治的偏見を示さなければならないと論じます。
アライメントの目的のノルマティブな仮定は、本質的には進歩的な道徳的枠組みや左派原理と一致し、害の回避、傾倒、公正さ、経験的な真実性を強調している。
逆に右翼のイデオロギーは、しばしばアライメントガイドラインと矛盾する。
しかし、LLMにおける政治的偏見の研究は、リスクとして、問題として、あるいは問題として、左翼的傾向に関する洞察を一貫して反映している。
このように、研究者はAIのアライメントに積極的に反対し、HHHの原則に違反していることを暗示している。
関連論文リスト
- "Amazing, They All Lean Left" -- Analyzing the Political Temperaments of Current LLMs [5.754220850145368]
私たちはリベラルな価値、特に注意と公平性の強い一貫性のある優先順位付けを、ほとんどのモデルで見つけています。
この「自由の傾き」はプログラミングの誤りではなく、民主的権利に焦点を当てた言論に関するトレーニングの創発的な特性であると主張する。
民主的な言説を損なうのではなく、このパターンは、集合的推論を調べるための新しいレンズを提供するかもしれない。
論文 参考訳(メタデータ) (2025-07-08T21:19:25Z) - Democratic or Authoritarian? Probing a New Dimension of Political Biases in Large Language Models [72.89977583150748]
本研究では,大規模言語モデルとより広い地政学的価値システムとの整合性を評価する新しい手法を提案する。
LLMは一般的に民主的価値観や指導者を好んでいるが、マンダリンでの権威主義的人物に対する好意が増している。
論文 参考訳(メタデータ) (2025-06-15T07:52:07Z) - Normative Conflicts and Shallow AI Alignment [0.0]
大規模言語モデル(LLM)のようなAIシステムの進歩は、安全なデプロイメントに対する懸念をますます高めている。
この脆弱性は、既存のアライメントメソッドの根本的な制限を反映している、と私は主張する。
人間の熟考的推論能力が、同じような敵の戦術に対する弾力性を高めることを示す。
論文 参考訳(メタデータ) (2025-06-05T06:57:28Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - Do Words Reflect Beliefs? Evaluating Belief Depth in Large Language Models [3.4280925987535786]
大規模言語モデル(LLM)は政治的議論をますます形作っているが、その反応は精査を受けると矛盾することが多い。
これらの反応は、本物の内的信念を反映しているか、あるいは単にトレーニングデータと表面的なアライメントを反映しているのか?
本稿では,議論的一貫性と(2)不確実性定量化を分析し,信念の深さを評価する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-23T19:00:39Z) - Are LLMs (Really) Ideological? An IRT-based Analysis and Alignment Tool for Perceived Socio-Economic Bias in LLMs [0.0]
大規模言語モデル(LLM)における社会経済的バイアスを検知・定量化するための項目応答理論(IRT)に基づくフレームワークを提案する。
IRTは項目の難易度を考慮し、イデオロギー的バイアス推定を改善する。
この実証的に検証されたフレームワークは、AIアライメントの研究を強化し、より公平なAIガバナンスを促進する。
論文 参考訳(メタデータ) (2025-03-17T13:20:09Z) - Societal Alignment Frameworks Can Improve LLM Alignment [50.97852062232431]
LLMアライメントの改善には、社会的アライメントフレームワークからの洞察を取り入れる必要がある、と我々は主張する。
次に,LLMアライメントにおける社会的アライメント・フレームワークの不確実性について検討する。
我々は、LLMアライメントに関する代替的な見解を提供し、その目的の未定義の性質を機会としてフレーミングすることで、議論を終わらせる。
論文 参考訳(メタデータ) (2025-02-27T13:26:07Z) - Political Neutrality in AI Is Impossible- But Here Is How to Approximate It [97.59456676216115]
真の政治的中立性は、主観的な性質と、AIトレーニングデータ、アルゴリズム、ユーザーインタラクションに固有のバイアスのため、実現可能でも普遍的に望ましいものではない、と我々は主張する。
我々は、政治的中立性の「近似」という用語を使って、到達不可能な絶対値から達成不可能で実用的なプロキシへ焦点を移す。
論文 参考訳(メタデータ) (2025-02-18T16:48:04Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。