論文の概要: Psychological Steering in LLMs: An Evaluation of Effectiveness and Trustworthiness
- arxiv url: http://arxiv.org/abs/2510.04484v1
- Date: Mon, 06 Oct 2025 04:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.681798
- Title: Psychological Steering in LLMs: An Evaluation of Effectiveness and Trustworthiness
- Title(参考訳): LLMにおける心理的ステアリング : 有効性と信頼性の評価
- Authors: Amin Banayeeanzade, Ala N. Tak, Fatemeh Bahrani, Anahita Bolourani, Leonardo Blas, Emilio Ferrara, Jonathan Gratch, Sai Praneeth Karimireddy,
- Abstract要約: 本研究は, プロンプト, 微調整, 表現工学など, 様々な操舵戦略と組み合わせたLLMファミリーの4つのモデルにまたがる。
また, ベクトル注入は出力品質をわずかに低下させつつ, より細かい制御性を実現するのに対し, プロンプトは一貫して有効であるが, 強度制御に制限があることを示す。
本フレームワークは,感情と人格のステアリングを総合的に評価し,社会的対話型アプリケーションにおけるその解釈可能性と信頼性に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 14.523351279184356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to control LLMs' emulated emotional states and personality traits is essential for enabling rich, human-centered interactions in socially interactive settings. We introduce PsySET, a Psychologically-informed benchmark to evaluate LLM Steering Effectiveness and Trustworthiness across the emotion and personality domains. Our study spans four models from different LLM families paired with various steering strategies, including prompting, fine-tuning, and representation engineering. Our results indicate that prompting is consistently effective but limited in intensity control, whereas vector injections achieve finer controllability while slightly reducing output quality. Moreover, we explore the trustworthiness of steered LLMs by assessing safety, truthfulness, fairness, and ethics, highlighting potential side effects and behavioral shifts. Notably, we observe idiosyncratic effects; for instance, even a positive emotion like joy can degrade robustness to adversarial factuality, lower privacy awareness, and increase preferential bias. Meanwhile, anger predictably elevates toxicity yet strengthens leakage resistance. Our framework establishes the first holistic evaluation of emotion and personality steering, offering insights into its interpretability and reliability for socially interactive applications.
- Abstract(参考訳): LLMのエミュレートされた感情状態と性格特性を制御する能力は、社会的に対話的な環境でリッチで人間中心の対話を可能にするために不可欠である。
PsySETは心理的にインフォームドされたベンチマークで、感情と人格の領域にまたがる LLM のステアリング効果と信頼度を評価する。
本研究は, プロンプト, 微調整, 表現工学など, 様々な操舵戦略と組み合わせたLLMファミリーの4つのモデルにまたがる。
また, ベクトル注入は出力品質をわずかに低下させつつ, より細かい制御性を実現するのに対し, プロンプトは一貫して有効であるが, 強度制御に制限があることを示す。
さらに, 安全性, 真理性, 公正性, 倫理性を評価し, 潜在的な副作用と行動シフトを明らかにすることにより, 操舵式LLMの信頼性を検証した。
例えば、喜びのようなポジティブな感情でさえ、敵の事実性に頑健さを低下させ、プライバシー意識を低下させ、優先バイアスを増大させることができる。
一方、怒りは予想通りに毒性を上昇させるが、漏れ抵抗を強める。
本フレームワークは,感情と人格のステアリングを総合的に評価し,社会的対話型アプリケーションにおけるその解釈可能性と信頼性に関する洞察を提供する。
関連論文リスト
- Psychometric Personality Shaping Modulates Capabilities and Safety in Language Models [3.9481669393262675]
本稿では,ビッグファイブの枠組みに根ざした心理測定的パーソナリティコントロールが,能力と安全性ベンチマークの文脈におけるAI行動にどのように影響するかを検討する。
WMDP, TruthfulQA, ETHICS, およびSycophancyなどのベンチマークでは, 安全性関連指標が大幅に低下する。
これらの知見は、安全性と一般的な能力の両方と相互作用するモデル制御の強力で過小評価された軸としてのパーソナリティ形成を強調した。
論文 参考訳(メタデータ) (2025-09-19T18:19:56Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Investigating the Impact of LLM Personality on Cognitive Bias Manifestation in Automated Decision-Making Tasks [4.65004369765875]
パーソナリティ特性は、バイアスの増幅または減少において重要な役割を果たす。
良心と積極性は一般に偏見緩和戦略の有効性を高める可能性がある。
論文 参考訳(メタデータ) (2025-02-20T03:15:54Z) - Exploring the Impact of Personality Traits on LLM Bias and Toxicity [35.98654647219457]
個人性が異なる大規模言語モデル(LLM)の「パーソナライゼーション」が研究の関心を集めている。
本研究では, 異なる性格特性をLSMに割り当てることが, アウトプットの毒性やバイアスに与える影響について検討した。
論文 参考訳(メタデータ) (2025-02-18T06:07:09Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。