論文の概要: Linear Representations of Political Perspective Emerge in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.02080v1
- Date: Mon, 03 Mar 2025 21:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:27:16.684852
- Title: Linear Representations of Political Perspective Emerge in Large Language Models
- Title(参考訳): 大規模言語モデルにおける政治的視点の線形表現
- Authors: Junsol Kim, James Evans, Aaron Schein,
- Abstract要約: 大規模言語モデル(LLM)は、様々な主観的人間の視点を現実的に反映するテキストを生成する能力を示した。
本稿は、LLMがアメリカの政治における他の政治的視点の中で、よりリベラルで保守的な視点を反映できるように見えるかを研究する。
- 参考スコア(独自算出の注目度): 2.2462222233189286
- License:
- Abstract: Large language models (LLMs) have demonstrated the ability to generate text that realistically reflects a range of different subjective human perspectives. This paper studies how LLMs are seemingly able to reflect more liberal versus more conservative viewpoints among other political perspectives in American politics. We show that LLMs possess linear representations of political perspectives within activation space, wherein more similar perspectives are represented closer together. To do so, we probe the attention heads across the layers of three open transformer-based LLMs (\texttt{Llama-2-7b-chat}, \texttt{Mistral-7b-instruct}, \texttt{Vicuna-7b}). We first prompt models to generate text from the perspectives of different U.S.~lawmakers. We then identify sets of attention heads whose activations linearly predict those lawmakers' DW-NOMINATE scores, a widely-used and validated measure of political ideology. We find that highly predictive heads are primarily located in the middle layers, often speculated to encode high-level concepts and tasks. Using probes only trained to predict lawmakers' ideology, we then show that the same probes can predict measures of news outlets' slant from the activations of models prompted to simulate text from those news outlets. These linear probes allow us to visualize, interpret, and monitor ideological stances implicitly adopted by an LLM as it generates open-ended responses. Finally, we demonstrate that by applying linear interventions to these attention heads, we can steer the model outputs toward a more liberal or conservative stance. Overall, our research suggests that LLMs possess a high-level linear representation of American political ideology and that by leveraging recent advances in mechanistic interpretability, we can identify, monitor, and steer the subjective perspective underlying generated text.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な主観的人間の視点を現実的に反映するテキストを生成する能力を示した。
本稿は、LLMがアメリカの政治における他の政治的視点の中で、よりリベラルで保守的な視点を反映できるように見えるかを研究する。
LLMは活性化空間内での政治的視点の線形表現を持ち、より類似した視点がより近くで表現されることを示す。
そのために、3つの開変換器をベースとしたLCM(\texttt{Llama-2-7b-chat}, \texttt{Mistral-7b-instruct}, \texttt{Vicuna-7b})の層にわたって注目ヘッドを探索する。
私たちはまず、異なる米国法学者の視点からテキストを生成するよう、モデルに促します。
次に、これらの議員のDW-NOMINATEスコアを線形に予測するアクティベーションが、政治的イデオロギーの広く使われ、検証された指標である注目ヘッドのセットを特定する。
高い予測的頭部は主に中間層に位置しており、しばしば高レベルの概念やタスクを符号化していると推測される。
調査は、議員のイデオロギーを予測するためにのみ訓練されたプローブを用いて、同じプローブが、これらのニュースメディアからのテキストをシミュレートするために誘導されるモデルのアクティベートから、ニュースメディアのスラントを予測できることを示す。
これらの線形プローブは、LLMがオープンな応答を生成する際に暗黙的に採用するイデオロギー的姿勢を可視化し、解釈し、監視することを可能にする。
最後に、これらの注意点に線形介入を適用することで、よりリベラルあるいは保守的なスタンスに向けてモデル出力を制御できることを実証する。
全体として、LLMはアメリカの政治的イデオロギーの高レベルな線形表現を持ち、機械的解釈可能性の最近の進歩を活用することで、生成したテキストの主観的視点を特定し、監視し、評価することができることを示唆している。
関連論文リスト
- Mapping and Influencing the Political Ideology of Large Language Models using Synthetic Personas [5.237116285113809]
政治コンパステスト(PCT)を用いたペルソナに基づく大規模言語モデルの政治的分布をマッピングする。
実験の結果, 合成ペルソナは左リバタリアン・クアドラントに主に集合しており, 明示的なイデオロギー記述子による刺激による応答性の変化を示すモデルが得られた。
すべてのモデルは、右権威主義的位置への顕著なシフトを示すが、左リバタリアン位置へのより限定的なシフトを示し、モデルトレーニングの固有のバイアスを反映するイデオロギー的操作に対する非対称な反応を示唆している。
論文 参考訳(メタデータ) (2024-12-19T13:36:18Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Evaluating Large Language Model Biases in Persona-Steered Generation [26.92498998306013]
大規模な言語モデル (LLM) は、不連続な人格に対して、連続した人格よりも9.7%少ないことが示される。
強化学習(Reinforcement Learning from Human Feedback, RLHF)により微調整されたモデルは、特に政治的リベラル派や女性に関連するスタンスに対して、より安定している。
論文 参考訳(メタデータ) (2024-05-30T17:06:03Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Your Large Language Model is Secretly a Fairness Proponent and You
Should Prompt it Like One [43.37522760105383]
フェアシンキング(FairThinking)は、LLMが公正表現に対して様々な視点を明確化できる役割を自動生成するパイプラインである。
FairThinkingを評価するために、3つのフェアネス関連トピックをカバーする1000項目のデータセットを作成し、GPT-3.5、GPT-4、Llama2、Mistralで実験を行う。
論文 参考訳(メタデータ) (2024-02-19T14:02:22Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Measurement in the Age of LLMs: An Application to Ideological Scaling [1.9413548770753526]
本稿では,大規模言語モデル(LLM)を用いて,社会科学的測定タスクに固有の概念的乱雑を探索する。
我々は、議員とテキストの両方のイデオロギー的尺度を引き出すために、LLMの顕著な言語的流布に依存している。
論文 参考訳(メタデータ) (2023-12-14T18:34:06Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Reflective Decoding: Beyond Unidirectional Generation with Off-the-Shelf
Language Models [63.808843089941405]
大規模な事前訓練された言語モデル(LM)は、顕著な品質のテキストを生成するが、左から右へ連続的にしか生成しない。
非順序タスクへの一方向LMの直接適用を可能にする新しい教師なしアルゴリズムであるReflective Decodingを提案する。
2段階のアプローチでは、監視もパラレルコーパスも必要ありません。
論文 参考訳(メタデータ) (2020-10-16T18:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。