論文の概要: Steering Towards Fairness: Mitigating Political Bias in LLMs
- arxiv url: http://arxiv.org/abs/2508.08846v1
- Date: Tue, 12 Aug 2025 11:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.400513
- Title: Steering Towards Fairness: Mitigating Political Bias in LLMs
- Title(参考訳): フェアネスに向けてのステアリング - LLMにおける政治バイアスの緩和
- Authors: Afrozah Nadeem, Mark Dras, Usman Naseem,
- Abstract要約: 大規模言語モデルにおいて,そのようなバイアスを探索し緩和する枠組みを提案する。
提案手法では,Mistral や DeepSeek などのモデルから隠れた層活性化を抽出し,比較する。
以上の結果から,デコーダLLMは階層間の表現バイアスを体系的に符号化することがわかった。
- 参考スコア(独自算出の注目度): 6.5137518437747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have enabled their widespread use across diverse real-world applications. However, concerns remain about their tendency to encode and reproduce ideological biases, particularly along political and economic dimensions. In this paper, we propose a framework for probing and mitigating such biases in decoder-based LLMs through analysis of internal model representations. Grounded in the Political Compass Test (PCT), our method uses contrastive pairs to extract and compare hidden layer activations from models like Mistral and DeepSeek. We introduce a comprehensive activation extraction pipeline capable of layer-wise analysis across multiple ideological axes, revealing meaningful disparities linked to political framing. Our results show that decoder LLMs systematically encode representational bias across layers, which can be leveraged for effective steering vector-based mitigation. This work provides new insights into how political bias is encoded in LLMs and offers a principled approach to debiasing beyond surface-level output interventions.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な現実世界のアプリケーションで広く利用されている。
しかし、イデオロギー的バイアスを符号化し再現する傾向、特に政治的・経済的側面について懸念が残る。
本稿では,デコーダをベースとしたLLMにおいて,内部モデル表現の分析を通じて,そのようなバイアスの探索と緩和を行うフレームワークを提案する。
政治コンパステスト (PCT) において,本手法は,Mistral や DeepSeek などのモデルから隠れた層アクティベーションを抽出し,比較するためにコントラッシブペアを用いる。
複数のイデオロギー軸にまたがる階層的解析が可能な包括的な活性化抽出パイプラインを導入し、政治的フレーミングに関連する有意義な相違を明らかにする。
以上の結果から,デコーダのLLMは,効率的なベクターベース緩和に活用できる層間表現バイアスを体系的に符号化していることがわかった。
この研究は、政治バイアスをLLMにエンコードする方法に関する新たな洞察を与え、表面レベルの出力介入を越えてデバイアスを行うための原則的なアプローチを提供する。
関連論文リスト
- Fine-Grained Interpretation of Political Opinions in Large Language Models [19.21833592916603]
近年の研究では,LSMの反応と内的意図の相違が指摘されている。
このことは、LSMの内部メカニズムを調査し、内部の政治状態を明らかにするのに役立ちます。
我々は、4次元の政治学習フレームワークを設計し、詳細な政治概念ベクトル学習のための対応するデータセットを構築した。
論文 参考訳(メタデータ) (2025-06-05T09:06:59Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - PoliTune: Analyzing the Impact of Data Selection and Fine-Tuning on Economic and Political Biases in Large Language Models [1.1704154007740835]
大規模言語モデル(LLM)における微調整とデータ選択が経済的・政治的バイアスに与える影響について検討する。
特定のイデオロギーとLLMの整合性を検討するための微調整手法であるPoliTuneを紹介した。
我々は、データセットの選択、アノテーション、DPO(Direct Preference Optimization)のための選好データセットの合成にオープンソースのLlama3-70Bを使用する体系的手法を導入し、そのモデルと所定の政治的イデオロギーを整合させる。
論文 参考訳(メタデータ) (2024-04-10T16:30:09Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。
このサンプリング行動が人間の意思決定と類似していることが示される。
統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。