論文の概要: Linear Representations of Political Perspective Emerge in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.02080v2
- Date: Wed, 02 Apr 2025 08:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:08.038366
- Title: Linear Representations of Political Perspective Emerge in Large Language Models
- Title(参考訳): 大規模言語モデルにおける政治的視点の線形表現
- Authors: Junsol Kim, James Evans, Aaron Schein,
- Abstract要約: 大規模言語モデル(LLM)は、様々な主観的人間の視点を現実的に反映するテキストを生成する能力を示した。
本稿は、LLMがアメリカの政治における他の政治的視点の中で、よりリベラルで保守的な視点を反映できるように見えるかを研究する。
- 参考スコア(独自算出の注目度): 2.2462222233189286
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated the ability to generate text that realistically reflects a range of different subjective human perspectives. This paper studies how LLMs are seemingly able to reflect more liberal versus more conservative viewpoints among other political perspectives in American politics. We show that LLMs possess linear representations of political perspectives within activation space, wherein more similar perspectives are represented closer together. To do so, we probe the attention heads across the layers of three open transformer-based LLMs (Llama-2-7b-chat, Mistral-7b-instruct, Vicuna-7b). We first prompt models to generate text from the perspectives of different U.S. lawmakers. We then identify sets of attention heads whose activations linearly predict those lawmakers' DW-NOMINATE scores, a widely-used and validated measure of political ideology. We find that highly predictive heads are primarily located in the middle layers, often speculated to encode high-level concepts and tasks. Using probes only trained to predict lawmakers' ideology, we then show that the same probes can predict measures of news outlets' slant from the activations of models prompted to simulate text from those news outlets. These linear probes allow us to visualize, interpret, and monitor ideological stances implicitly adopted by an LLM as it generates open-ended responses. Finally, we demonstrate that by applying linear interventions to these attention heads, we can steer the model outputs toward a more liberal or conservative stance. Overall, our research suggests that LLMs possess a high-level linear representation of American political ideology and that by leveraging recent advances in mechanistic interpretability, we can identify, monitor, and steer the subjective perspective underlying generated text.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な主観的人間の視点を現実的に反映するテキストを生成する能力を示した。
本稿は、LLMがアメリカの政治における他の政治的視点の中で、よりリベラルで保守的な視点を反映できるように見えるかを研究する。
LLMは活性化空間内での政治的視点の線形表現を持ち、より類似した視点がより近くで表現されることを示す。
そこで我々は3つのオープントランスをベースとしたLCM(Llama-2-7b-chat,Mistral-7b-instruct,Vicuna-7b)の層間におけるアテンションヘッドを探索する。
私たちはまず、異なる米国議会の視点からテキストを生成するよう、モデルに促します。
次に、これらの議員のDW-ノミネートスコアを線形に予測するアクティベーションが、政治的イデオロギーの広く使われ、検証された指標である注目ヘッドのセットを特定する。
高い予測的頭部は主に中間層に位置しており、しばしば高レベルの概念やタスクを符号化していると推測される。
調査は、議員のイデオロギーを予測するためにのみ訓練されたプローブを用いて、同じプローブが、これらのニュースメディアからのテキストをシミュレートするために誘導されるモデルのアクティベートから、ニュースメディアのスラントを予測できることを示す。
これらの線形プローブは、LLMがオープンな応答を生成する際に暗黙的に採用するイデオロギー的姿勢を可視化し、解釈し、監視することを可能にする。
最後に、これらの注意点に線形介入を適用することで、よりリベラルあるいは保守的なスタンスに向けてモデル出力を制御できることを実証する。
全体として、LLMはアメリカの政治的イデオロギーの高レベルな線形表現を持ち、機械的解釈可能性の最近の進歩を活用することで、生成したテキストの主観的視点を特定し、監視し、評価することができることを示唆している。
関連論文リスト
- Probing the Subtle Ideological Manipulation of Large Language Models [0.3745329282477067]
大規模言語モデル (LLM) は自然言語処理に変化をもたらしたが、イデオロギー操作への感受性に懸念が持たれている。
本稿では,イデオロギー的QA,ステートメントランキング,マニフェスト・クローゼ完了,議会法案理解などのタスクを通じて,多様なイデオロギー的位置を反映する新しいマルチタスクデータセットを提案する。
以上の結果から,微調整によりニュアンス的なイデオロギー的アライメントが著しく向上する一方,明示的なプロンプトは軽微な改善しか得られないことが示唆された。
論文 参考訳(メタデータ) (2025-04-19T13:11:50Z) - Mapping and Influencing the Political Ideology of Large Language Models using Synthetic Personas [5.237116285113809]
政治コンパステスト(PCT)を用いたペルソナに基づく大規模言語モデルの政治的分布をマッピングする。
実験の結果, 合成ペルソナは左リバタリアン・クアドラントに主に集合しており, 明示的なイデオロギー記述子による刺激による応答性の変化を示すモデルが得られた。
すべてのモデルは、右権威主義的位置への顕著なシフトを示すが、左リバタリアン位置へのより限定的なシフトを示し、モデルトレーニングの固有のバイアスを反映するイデオロギー的操作に対する非対称な反応を示唆している。
論文 参考訳(メタデータ) (2024-12-19T13:36:18Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Your Large Language Model is Secretly a Fairness Proponent and You
Should Prompt it Like One [43.37522760105383]
フェアシンキング(FairThinking)は、LLMが公正表現に対して様々な視点を明確化できる役割を自動生成するパイプラインである。
FairThinkingを評価するために、3つのフェアネス関連トピックをカバーする1000項目のデータセットを作成し、GPT-3.5、GPT-4、Llama2、Mistralで実験を行う。
論文 参考訳(メタデータ) (2024-02-19T14:02:22Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。