論文の概要: Don't Change My View: Ideological Bias Auditing in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.12652v1
- Date: Tue, 16 Sep 2025 04:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.879743
- Title: Don't Change My View: Ideological Bias Auditing in Large Language Models
- Title(参考訳): 私の考えを変えるな - 大規模言語モデルにおけるイデオロギー的バイアス
- Authors: Paul Kröger, Emilio Barkett,
- Abstract要約: 従来提案されていた統計手法を,イデオロギー的バイアス監査の新しい文脈に適用する。
我々は、選択したトピックに数学的に関連のあるプロンプト間でのモデル出力の分布変化を分析する。
この設計は、プロプライエタリなブラックボックスシステムの監査に特に適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become increasingly embedded in products used by millions, their outputs may influence individual beliefs and, cumulatively, shape public opinion. If the behavior of LLMs can be intentionally steered toward specific ideological positions, such as political or religious views, then those who control these systems could gain disproportionate influence over public discourse. Although it remains an open question whether LLMs can reliably be guided toward coherent ideological stances and whether such steering can be effectively prevented, a crucial first step is to develop methods for detecting when such steering attempts occur. In this work, we adapt a previously proposed statistical method to the new context of ideological bias auditing. Our approach carries over the model-agnostic design of the original framework, which does not require access to the internals of the language model. Instead, it identifies potential ideological steering by analyzing distributional shifts in model outputs across prompts that are thematically related to a chosen topic. This design makes the method particularly suitable for auditing proprietary black-box systems. We validate our approach through a series of experiments, demonstrating its practical applicability and its potential to support independent post hoc audits of LLM behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)が何百万もの製品に組み込まれるようになると、そのアウトプットは個々の信念に影響を与え、累積的に世論を形成する可能性がある。
LLMの行動が、政治的、宗教的見解などの特定のイデオロギー的立場に故意に向けられるなら、これらのシステムを管理する人々は、世論に対して不公平な影響を及ぼす可能性がある。
LLMがコヒーレントなイデオロギー的姿勢に確実に導くことができるのか、そのようなステアリングを効果的に防ぐことができるのか、という疑問が残るが、そのようなステアリングの試みがいつ起こるかを検出する方法を開発することが重要な第一歩である。
本研究では,従来提案されていた統計手法をイデオロギー的バイアス監査の新しい文脈に適用する。
我々のアプローチは、言語モデルの内部へのアクセスを必要としない、オリジナルのフレームワークのモデルに依存しない設計を継承する。
代わりに、選択されたトピックに数学的に関連のあるプロンプトをまたいだモデル出力の分布シフトを分析することによって、潜在的なイデオロギー的ステアリングを特定する。
この設計は、プロプライエタリなブラックボックスシステムの監査に特に適している。
我々は,本手法を一連の実験により検証し,その有効性とLCM行動の独立監査を支援する可能性を実証した。
関連論文リスト
- Beyond the Surface: Probing the Ideological Depth of Large Language Models [3.84754844062131]
本稿では,大規模言語モデル(LLM)における「イデオロギー的深度」の概念について検討する。
命令プロンプトとアクティベーションステアリングを用いた2つの有名なオープンソースLCMの「ステアビリティ」を測定した。
予備分析により、ステアビリティが低いモデルは、より明瞭で抽象的なイデオロギー的特徴を持っていることが明らかになった。
論文 参考訳(メタデータ) (2025-08-29T09:27:01Z) - Probing the Subtle Ideological Manipulation of Large Language Models [0.3745329282477067]
大規模言語モデル (LLM) は自然言語処理に変化をもたらしたが、イデオロギー操作への感受性に懸念が持たれている。
本稿では,イデオロギー的QA,ステートメントランキング,マニフェスト・クローゼ完了,議会法案理解などのタスクを通じて,多様なイデオロギー的位置を反映する新しいマルチタスクデータセットを提案する。
以上の結果から,微調整によりニュアンス的なイデオロギー的アライメントが著しく向上する一方,明示的なプロンプトは軽微な改善しか得られないことが示唆された。
論文 参考訳(メタデータ) (2025-04-19T13:11:50Z) - Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - PRISM: A Methodology for Auditing Biases in Large Language Models [9.751718230639376]
PRISMは、大規模言語モデルを監査するための柔軟な調査ベースの方法論である。
優先事項を直接調査するのではなく、タスクベースの調査を通じて間接的にこれらのポジションを照会しようとする。
論文 参考訳(メタデータ) (2024-10-24T16:57:20Z) - Prompting Fairness: Integrating Causality to Debias Large Language Models [19.76215433424235]
大規模言語モデル(LLM)は偏見や差別的な反応を生じさせる可能性がある。
社会的偏見に対処するための因果性誘導型脱バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T17:46:28Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。