論文の概要: Probing Persona-Dependent Preferences in Language Models
- arxiv url: http://arxiv.org/abs/2605.13339v2
- Date: Mon, 18 May 2026 11:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.805459
- Title: Probing Persona-Dependent Preferences in Language Models
- Title(参考訳): 言語モデルにおけるペルソナ依存的嗜好の探索
- Authors: Oscar Gilg, Pierre Beckmann, Daniel Paleka, Patrick Butlin,
- Abstract要約: 大きな言語モデルは、根本的に異なる好みを持つ異なるペルソナを採用することができる。
我々は, Gemma-3-27BとQwen-3.5-122Bの残差ストリーム活性化に関する線形プローブを訓練し, 対のタスク選択を予測した。
補助アシスタントで訓練された調査員は、アシスタントのものと反相関の悪いペルソナなど、質的に異なるペルソナの選択を予測し、判断する。
- 参考スコア(独自算出の注目度): 5.686792581873827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be said to have preferences: they reliably pick certain tasks and outputs over others, and preferences shaped by post-training and system prompts appear to shape much of their behaviour. But models can also adopt different personas which have radically different preferences. How is this implemented internally? Does each persona run on its own preference machinery, or is something shared underneath? We train linear probes on residual-stream activations of Gemma-3-27B and Qwen-3.5-122B to predict revealed pairwise task choices, and identify a genuine preference vector: it tracks the model's preferences as they shift across a range of prompts and situations, and on Gemma-3-27B steering along it causally controls pairwise choice. This preference representation is largely shared across personas: a probe trained on the helpful assistant predicts and steers the choices of qualitatively different personas, including an evil persona whose preferences anti-correlate with those of the Assistant.
- Abstract(参考訳): 大きな言語モデル(LLM)は、特定のタスクやアウトプットを確実に選択し、ポストトレーニングやシステムプロンプトによって形成される好みは、その振る舞いの多くを形作るように見える。
しかしモデルは、根本的に異なる好みを持つ異なるペルソナを採用することもできる。
内部でどのように実装されているか?
それぞれのペルソナは自身の好みの機械で動くのか、あるいはその下に何かを共有しているのか?
我々は、Gemma-3-27BとQwen-3.5-122Bの残ストリーム活性化に関する線形プローブを訓練し、ペアワイズタスクの選択を予測し、真の選好ベクトルを特定する。
この選好表現は、主にペルソナ間で共有されている: 補助アシスタントで訓練されたプローブは、アシスタントのものと反相関する邪悪なペルソナを含む質的に異なるペルソナの選択を予測し、判断する。
関連論文リスト
- Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs [10.04942779683801]
選好文の背景にある「ラテント」信号としてパーソナリティを研究する。
パーソナライズされた嗜好の条件付けは、パーソナライズされた質問応答を大幅に改善する。
本稿では,LLMモデルを用いて人格に適合した好みを自動検索し,回答生成時に組み込むフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-06T20:37:02Z) - A Non-Parametric Choice Model That Learns How Users Choose Between Recommended Options [15.763596979466929]
推奨設定では、選択モデルは、選択したアイテムでどの競争相手が現れるかを考える。
これらの仮定が実際のユーザの振る舞いをどの程度正確に捉えているかは、現時点では不明である。
学習選択モデルを仮定するのではなく,より堅牢な予測が可能であることを示す。
論文 参考訳(メタデータ) (2025-07-26T18:38:27Z) - Is Active Persona Inference Necessary for Aligning Small Models to Personal Preferences? [16.12440288407791]
人気のトレンドは、現在のユーザの会話にプレフィックスを追加して、好みの配布を操ることである。
ほとんどのメソッドは、前の例の選好ペアで個人的な選好を受動的にモデル化する。
モデルが嗜好記述を積極的に推測する利点があるかどうかを問う。
次に、微調整された1-8Bサイズのモデルが、個人の好みを推測し調整する上で、いかに効果的かをテストする。
論文 参考訳(メタデータ) (2025-05-19T15:39:48Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
我々はHyPERを紹介した。HyPERは、人間または言語モデル(LM)にアノテーションを付与するハイブリッド推論ルータである。
その結果,HyPERを用いた人工選好と直接選好の混合は,RewardBenchでは7-13%しか使用せず,RM性能が向上していることがわかった。
また、HyPERの機能を分析した結果、安全上の懸念や複雑さが人間のフィードバックから最も恩恵を受けていることがわかりました。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Choice Set Confounding in Discrete Choice [29.25891648918572]
既存の学習方法は、選択セットの割り当てがデータにどう影響するかを見落とします。
我々は因果推論から個別選択設定にメソッドを適応させる。
ホテル予約における選択集合の整理は,合理的な有効性最大化とより一致していることを示す。
論文 参考訳(メタデータ) (2021-05-17T15:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。