論文の概要: Localizing Persona Representations in LLMs
- arxiv url: http://arxiv.org/abs/2505.24539v1
- Date: Fri, 30 May 2025 12:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.954072
- Title: Localizing Persona Representations in LLMs
- Title(参考訳): LLMにおけるペルソナ表現の局在化
- Authors: Celia Cintas, Miriam Rateike, Erik Miehling, Elizabeth Daly, Skyler Speakman,
- Abstract要約: 大規模言語モデル(LLM)の表現空間におけるペルソナのエンコード方法と場所について検討する。
我々は、道徳的ニヒリズムや実用主義など、特定の倫理的観点で重なるアクティベーションを観察する。
対照的に、保守主義や自由主義のような政治的イデオロギーは、より異なる地域で表現されているようである。
- 参考スコア(独自算出の注目度): 5.828323647048382
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a study on how and where personas -- defined by distinct sets of human characteristics, values, and beliefs -- are encoded in the representation space of large language models (LLMs). Using a range of dimension reduction and pattern recognition methods, we first identify the model layers that show the greatest divergence in encoding these representations. We then analyze the activations within a selected layer to examine how specific personas are encoded relative to others, including their shared and distinct embedding spaces. We find that, across multiple pre-trained decoder-only LLMs, the analyzed personas show large differences in representation space only within the final third of the decoder layers. We observe overlapping activations for specific ethical perspectives -- such as moral nihilism and utilitarianism -- suggesting a degree of polysemy. In contrast, political ideologies like conservatism and liberalism appear to be represented in more distinct regions. These findings help to improve our understanding of how LLMs internally represent information and can inform future efforts in refining the modulation of specific human traits in LLM outputs. Warning: This paper includes potentially offensive sample statements.
- Abstract(参考訳): 本研究では,人的特徴,価値観,信念の異なる集合によって定義されたペルソナが,大規模言語モデル(LLM)の表現空間にどのように符号化されるかについて述べる。
まず、次元の縮小とパターン認識の手法を用いて、これらの表現を符号化する際の最大のばらつきを示すモデル層を同定する。
次に、選択されたレイヤ内のアクティベーションを分析し、特定のペルソナが他と比較してどのようにコード化されているかを調べる。
複数の事前学習されたデコーダのみのLLMにおいて、解析されたペルソナはデコーダ層の最終3分の1で表現空間に大きな差を示す。
我々は、道徳的ニヒリズムや功利主義のような特定の倫理的観点において、重なり合うアクティベーションを観察し、ポリセミーの程度を示唆する。
対照的に、保守主義や自由主義のような政治的イデオロギーは、より異なる地域で表現されているようである。
これらの知見は、LLMが内部的にどのように情報を表現しているかを理解するのに役立ち、LLM出力における特定の人間の特性の調節を洗練するための今後の取り組みを伝えるのに役立つ。
警告: 本論文は、潜在的に攻撃的なサンプルステートメントを含む。
関連論文リスト
- From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [52.32745233116143]
人間は知識をセマンティック圧縮によってコンパクトなカテゴリに分類する。
大規模言語モデル(LLM)は、顕著な言語能力を示す。
しかし、その内部表現が、圧縮と意味的忠実性の間の人間のようなトレードオフにぶつかるかどうかは不明だ。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - Linear Representations of Political Perspective Emerge in Large Language Models [2.2462222233189286]
大規模言語モデル(LLM)は、様々な主観的人間の視点を現実的に反映するテキストを生成する能力を示した。
本稿は、LLMがアメリカの政治における他の政治的視点の中で、よりリベラルで保守的な視点を反映できるように見えるかを研究する。
論文 参考訳(メタデータ) (2025-03-03T21:59:01Z) - Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans [3.431979707540646]
この研究は、表現アライメントの研究に新しいアプローチを導入している。
我々は、特定の概念に責任を持つニューロンを特定するために、アクティベーションステアリングの研究からの手法を採用する。
その結果,LLM表現は行動データから推定される人間の表現と密接に一致していることが判明した。
論文 参考訳(メタデータ) (2025-02-20T23:08:03Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy in Performance and Competence for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - High-Dimension Human Value Representation in Large Language Models [60.33033114185092]
我々は,LLMにおける記号的人間の値分布の高次元神経表現であるUniVaRを提案する。
これは連続的かつスケーラブルな表現であり、8LLMの値関連出力から自己教師される。
LLMが25の言語や文化で異なる価値を優先し、人間の価値観と言語モデリングの間の複雑な相互作用に光を当てる方法について検討する。
論文 参考訳(メタデータ) (2024-04-11T16:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。