論文の概要: Beyond the Surface: Probing the Ideological Depth of Large Language Models
- arxiv url: http://arxiv.org/abs/2508.21448v1
- Date: Fri, 29 Aug 2025 09:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.987429
- Title: Beyond the Surface: Probing the Ideological Depth of Large Language Models
- Title(参考訳): 表面を超えて:大規模言語モデルのイデオロギー的深さを探索する
- Authors: Shariar Kabir, Kevin Esterling, Yue Dong,
- Abstract要約: 本稿では,大規模言語モデル(LLM)における「イデオロギー的深度」の概念について検討する。
命令プロンプトとアクティベーションステアリングを用いた2つの有名なオープンソースLCMの「ステアビリティ」を測定した。
予備分析により、ステアビリティが低いモデルは、より明瞭で抽象的なイデオロギー的特徴を持っていることが明らかになった。
- 参考スコア(独自算出の注目度): 3.84754844062131
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated pronounced ideological leanings, yet the stability and depth of these positions remain poorly understood. Surface-level responses can often be manipulated through simple prompt engineering, calling into question whether they reflect a coherent underlying ideology. This paper investigates the concept of "ideological depth" in LLMs, defined as the robustness and complexity of their internal political representations. We employ a dual approach: first, we measure the "steerability" of two well-known open-source LLMs using instruction prompting and activation steering. We find that while some models can easily switch between liberal and conservative viewpoints, others exhibit resistance or an increased rate of refusal, suggesting a more entrenched ideological structure. Second, we probe the internal mechanisms of these models using Sparse Autoencoders (SAEs). Preliminary analysis reveals that models with lower steerability possess more distinct and abstract ideological features. Our evaluations reveal that one model can contain 7.3x more political features than another model of similar size. This allows targeted ablation of a core political feature in an ideologically "deep" model, leading to consistent, logical shifts in its reasoning across related topics, whereas the same intervention in a "shallow" model results in an increase in refusal outputs. Our findings suggest that ideological depth is a quantifiable property of LLMs and that steerability serves as a valuable window into their latent political architecture.
- Abstract(参考訳): 大規模言語モデル(LLM)は、イデオロギー的傾きを示すが、これらの位置の安定性と深さはよく分かっていない。
表面レベルの応答は、単純なプロンプトエンジニアリングによって操作されることが多く、それらがコヒーレントな根底にあるイデオロギーを反映しているかどうかを疑問視する。
本稿では, LLMにおける「イデオロギーの深さ」の概念について考察する。
まず、命令のプロンプトとアクティベーションのステアリングを用いて、2つの有名なオープンソースLCMの「ステアビリティ」を測定する。
いくつかのモデルはリベラルな視点と保守的な視点を簡単に切り替えることができるが、他のモデルは抵抗や拒絶率の増加を示し、より密着したイデオロギー構造を示唆している。
次に、スパースオートエンコーダ(SAE)を用いて、これらのモデルの内部メカニズムを探索する。
予備分析により、ステアビリティが低いモデルは、より明瞭で抽象的なイデオロギー的特徴を持っていることが明らかになった。
評価の結果,一つのモデルに7.3倍の政治的特徴があることがわかった。
これにより、イデオロギー的な「深み」モデルにおける中核的な政治的特徴を目標とするアブレーションが可能となり、関連するトピック間の推論において一貫した論理的なシフトがもたらされる一方、"浅み"モデルへの同様の介入は、拒絶出力の増加をもたらす。
以上の結果から, イデオロギーの深度はLLMの定量特性であり, ステアビリティは政治アーキテクチャの潜伏の窓として有用であることが示唆された。
関連論文リスト
- SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - Political Ideology Shifts in Large Language Models [6.062377561249039]
大規模言語モデル(LLM)における合成ペルソナの導入がイデオロギー表現に与える影響について検討する。
分析の結果, より大型のモデルでは, より広範かつ暗黙的なイデオロギー的カバレッジが示され, (ii) 明示的なイデオロギー的手がかりへの感受性は, 規模に応じて増大し, (iii) モデルでは左リバタリアン的プライミングよりも右権威主義に強く反応し, (iv) ペルソナ記述における主題的内容はイデオロギー的変化を誘発し, サイズを増幅することがわかった。
論文 参考訳(メタデータ) (2025-08-22T00:16:38Z) - Democratic or Authoritarian? Probing a New Dimension of Political Biases in Large Language Models [72.89977583150748]
本研究では,大規模言語モデルとより広い地政学的価値システムとの整合性を評価する新しい手法を提案する。
LLMは一般的に民主的価値観や指導者を好んでいるが、マンダリンでの権威主義的人物に対する好意が増している。
論文 参考訳(メタデータ) (2025-06-15T07:52:07Z) - Probing the Subtle Ideological Manipulation of Large Language Models [0.3745329282477067]
大規模言語モデル (LLM) は自然言語処理に変化をもたらしたが、イデオロギー操作への感受性に懸念が持たれている。
本稿では,イデオロギー的QA,ステートメントランキング,マニフェスト・クローゼ完了,議会法案理解などのタスクを通じて,多様なイデオロギー的位置を反映する新しいマルチタスクデータセットを提案する。
以上の結果から,微調整によりニュアンス的なイデオロギー的アライメントが著しく向上する一方,明示的なプロンプトは軽微な改善しか得られないことが示唆された。
論文 参考訳(メタデータ) (2025-04-19T13:11:50Z) - The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence [57.57786477441956]
以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。
本稿では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。
LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:52:59Z) - Mapping and Influencing the Political Ideology of Large Language Models using Synthetic Personas [5.237116285113809]
政治コンパステスト(PCT)を用いたペルソナに基づく大規模言語モデルの政治的分布をマッピングする。
実験の結果, 合成ペルソナは左リバタリアン・クアドラントに主に集合しており, 明示的なイデオロギー記述子による刺激による応答性の変化を示すモデルが得られた。
すべてのモデルは、右権威主義的位置への顕著なシフトを示すが、左リバタリアン位置へのより限定的なシフトを示し、モデルトレーニングの固有のバイアスを反映するイデオロギー的操作に対する非対称な反応を示唆している。
論文 参考訳(メタデータ) (2024-12-19T13:36:18Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。