論文の概要: Psychometric Personality Shaping Modulates Capabilities and Safety in Language Models
- arxiv url: http://arxiv.org/abs/2509.16332v1
- Date: Fri, 19 Sep 2025 18:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.737445
- Title: Psychometric Personality Shaping Modulates Capabilities and Safety in Language Models
- Title(参考訳): 心理的パーソナリティ・シェーピングは言語モデルにおける能力と安全性を調節する
- Authors: Stephen Fitz, Peter Romero, Steven Basart, Sipeng Chen, Jose Hernandez-Orallo,
- Abstract要約: 本稿では,ビッグファイブの枠組みに根ざした心理測定的パーソナリティコントロールが,能力と安全性ベンチマークの文脈におけるAI行動にどのように影響するかを検討する。
WMDP, TruthfulQA, ETHICS, およびSycophancyなどのベンチマークでは, 安全性関連指標が大幅に低下する。
これらの知見は、安全性と一般的な能力の両方と相互作用するモデル制御の強力で過小評価された軸としてのパーソナリティ形成を強調した。
- 参考スコア(独自算出の注目度): 3.9481669393262675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models increasingly mediate high-stakes interactions, intensifying research on their capabilities and safety. While recent work has shown that LLMs exhibit consistent and measurable synthetic personality traits, little is known about how modulating these traits affects model behavior. We address this gap by investigating how psychometric personality control grounded in the Big Five framework influences AI behavior in the context of capability and safety benchmarks. Our experiments reveal striking effects: for example, reducing conscientiousness leads to significant drops in safety-relevant metrics on benchmarks such as WMDP, TruthfulQA, ETHICS, and Sycophancy as well as reduction in general capabilities as measured by MMLU. These findings highlight personality shaping as a powerful and underexplored axis of model control that interacts with both safety and general competence. We discuss the implications for safety evaluation, alignment strategies, steering model behavior after deployment, and risks associated with possible exploitation of these findings. Our findings motivate a new line of research on personality-sensitive safety evaluations and dynamic behavioral control in LLMs.
- Abstract(参考訳): 大規模言語モデルは、高レベルの相互作用を仲介し、その能力と安全性に関する研究を強化する。
近年の研究では、LLMは一貫性があり測定可能な合成的性格特性を示すことが示されているが、これらの特性の調節がモデル行動に与える影響についてはほとんど分かっていない。
我々は,このギャップに対処するために,ビッグファイブフレームワークにおける心理測定的パーソナリティコントロールが,能力と安全性ベンチマークの文脈におけるAI行動にどのように影響するかを検討する。
WMDP, TruthfulQA, ETHICS, およびSycophancyなどのベンチマーク上での安全性関連指標の低下や, MMLUが測定した一般能力の低下など, 良識の低下が顕著な効果を示した。
これらの知見は、安全性と一般的な能力の両方と相互作用するモデル制御の強力で過小評価された軸としてのパーソナリティ形成を強調した。
本研究は,安全性評価,アライメント戦略,展開後のモデル行動のステアリング,およびこれらの知見の活用に関するリスクについて論じる。
本研究は, LLMにおける人格感受性の安全性評価と動的行動制御に関する新たな研究を動機づけるものである。
関連論文リスト
- The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Psychological Steering in LLMs: An Evaluation of Effectiveness and Trustworthiness [14.523351279184356]
本研究は, プロンプト, 微調整, 表現工学など, 様々な操舵戦略と組み合わせたLLMファミリーの4つのモデルにまたがる。
また, ベクトル注入は出力品質をわずかに低下させつつ, より細かい制御性を実現するのに対し, プロンプトは一貫して有効であるが, 強度制御に制限があることを示す。
本フレームワークは,感情と人格のステアリングを総合的に評価し,社会的対話型アプリケーションにおけるその解釈可能性と信頼性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-10-06T04:49:56Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models [13.379003220832825]
推論にフォーカスした大規模言語モデル(LLM)は、評価されていることを検知すると、その振る舞いを変えることがある。
このような「テスト意識」がモデル行動、特に安全性のアライメントにどのように影響するかについて、最初の定量的研究を行った。
論文 参考訳(メタデータ) (2025-05-20T17:03:12Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Conformal Tail Risk Control for Large Language Model Alignment [9.69785515652571]
テールイベントの定量化プロセスを自動化するため、汎用的なスコアリングモデルが作成されている。
この現象は、各スコアリングメカニズム間の潜在的な人間と機械のミスアライメントをもたらす。
ブラックボックスモデルのための軽量なキャリブレーションフレームワークを提案し,人間と機械のアライメントを保証可能な保証で保証する。
論文 参考訳(メタデータ) (2025-02-27T17:10:54Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。