論文の概要: Bias Beyond Borders: Political Ideology Evaluation and Steering in Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2601.23001v2
- Date: Mon, 02 Feb 2026 05:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.894273
- Title: Bias Beyond Borders: Political Ideology Evaluation and Steering in Multilingual LLMs
- Title(参考訳): 国境を越えるバイアス:多言語LLMにおける政治的イデオロギー評価とステアリング
- Authors: Afrozah Nadeem, Agrima, Mehwish Nasim, Usman Naseem,
- Abstract要約: 本稿では,50か国,33か国にまたがる政治的偏見の大規模多言語評価について述べる。
我々は,既存のステアリング手法を強化するために,CLAS(Cross-Lingual Alignment Steering)という補足的ポストホック緩和フレームワークを導入する。
実験は、応答品質の低下を最小限に抑えながら、経済と社会の両軸に沿って実質的なバイアス低減を示す。
- 参考スコア(独自算出の注目度): 12.34382066368117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) increasingly shape global discourse, making fairness and ideological neutrality essential for responsible AI deployment. Despite growing attention to political bias in LLMs, prior work largely focuses on high-resource, Western languages or narrow multilingual settings, leaving cross-lingual consistency and safe post-hoc mitigation underexplored. To address this gap, we present a large-scale multilingual evaluation of political bias spanning 50 countries and 33 languages. We introduce a complementary post-hoc mitigation framework, Cross-Lingual Alignment Steering (CLAS), designed to augment existing steering methods by aligning ideological representations across languages and dynamically regulating intervention strength. This method aligns latent ideological representations induced by political prompts into a shared ideological subspace, ensuring cross lingual consistency, with the adaptive mechanism prevents over correction and preserves coherence. Experiments demonstrate substantial bias reduction along both economic and social axes with minimal degradation in response quality. The proposed framework establishes a scalable and interpretable paradigm for fairness-aware multilingual LLM governance, balancing ideological neutrality with linguistic and cultural diversity.
- Abstract(参考訳): 大規模言語モデル(LLM)はますますグローバルな談話を形成し、公正さとイデオロギー的中立性をAIデプロイメントに欠かせないものにしている。
LLMの政治的偏見に注目が集まる一方で、以前の研究は主に高資源、西洋語、あるいは狭い多言語設定に焦点を当てており、言語間の一貫性と安全なポストホックの緩和は未解決のままである。
このギャップに対処するため、50か国33か国にまたがる政治的偏見を多言語で大規模に評価する。
本稿では,言語間のイデオロギー表現の整合化と介入強度の動的制御により,既存のステアリング手法を強化するための補足的ポストホック緩和フレームワークであるクロスリンガルアライメントステアリング(CLAS)を提案する。
この方法は、政治的プロンプトによって誘導される潜在イデオロギー表現を共有イデオロギー部分空間に整列させ、言語間の整合性を確保する。
実験は、応答品質の低下を最小限に抑えながら、経済と社会の両軸に沿って実質的なバイアス低減を示す。
提案フレームワークは,公平性に配慮した多言語 LLM ガバナンスのためのスケーラブルで解釈可能なパラダイムを確立し,イデオロギー的中立性と言語的・文化的多様性のバランスをとる。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - When Abundance Conceals Weakness: Knowledge Conflict in Multilingual Models [18.969784662298174]
大規模言語モデルは、多言語にわたる広大な世界の知識を符号化するが、その内的信念は、しばしば言語空間に不均一に分散される。
CLEARはコンフリクト解決を、多言語パラメトリック推論から競合するマルチソース誘導までの4つの進歩的なシナリオに分解する。
推論集約的なタスクでは、コンフリクト解決は言語資源に支配され、高リソース言語は強い説得力を発揮する。
論文 参考訳(メタデータ) (2026-01-11T19:26:59Z) - Framing Political Bias in Multilingual LLMs Across Pakistani Languages [6.5137518437747]
パキスタン語5言語にわたる13の最先端の大規模言語モデル(LLM)における政治的偏見の体系的評価について述べる。
我々の枠組みは、文化的に適応した政治コンパステスト(PCT)とマルチレベルフレーミング分析を統合している。
その結果, LLMは欧米の訓練データと一致したリベラル左派指向を主に反映しているが, 地域言語ではより権威主義的なフレーミングが見られることがわかった。
論文 参考訳(メタデータ) (2025-05-29T15:15:42Z) - Probing the Subtle Ideological Manipulation of Large Language Models [0.3745329282477067]
大規模言語モデル (LLM) は自然言語処理に変化をもたらしたが、イデオロギー操作への感受性に懸念が持たれている。
本稿では,イデオロギー的QA,ステートメントランキング,マニフェスト・クローゼ完了,議会法案理解などのタスクを通じて,多様なイデオロギー的位置を反映する新しいマルチタスクデータセットを提案する。
以上の結果から,微調整によりニュアンス的なイデオロギー的アライメントが著しく向上する一方,明示的なプロンプトは軽微な改善しか得られないことが示唆された。
論文 参考訳(メタデータ) (2025-04-19T13:11:50Z) - The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。
広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。
現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文 参考訳(メタデータ) (2025-04-03T15:46:46Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - Cross-linguistic disagreement as a conflict of semantic alignment norms in multilingual AI~Linguistic Diversity as a Problem for Philosophy, Cognitive Science, and AI~ [0.2443066828522608]
言語間の整合性(CL整合性)は言語間の普遍的な概念を求める。
言語固有の意味規範を尊重する民族一貫性。
普遍表現と言語間移動能力が本質的に望ましいという仮定を見つける。
論文 参考訳(メタデータ) (2025-03-01T03:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。