論文の概要: PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra
- arxiv url: http://arxiv.org/abs/2602.15669v1
- Date: Tue, 17 Feb 2026 15:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.114235
- Title: PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra
- Title(参考訳): PERSONA: アクティベーションベクトル代数による動的・構成的推論時間パーソナリティ制御
- Authors: Xiachong Feng, Liang Zhao, Weihong Zhong, Yichong Huang, Yuxuan Gu, Lingpeng Kong, Xiaocheng Feng, Bing Qin,
- Abstract要約: 大規模言語モデルにおけるパーソナリティ制御の現在の手法は、静的なプロンプトや高価な微調整に依存している。
ペルソナ(PERSONA)は、人格ベクトルを直接操作することで、微調整レベルのパフォーマンスを実現する訓練不要のフレームワークである。
PersonalityBenchでは、この手法は平均スコア9.60を達成し、教師付き微調整上界9.61とほぼ一致している。
- 参考スコア(独自算出の注目度): 84.59328460968872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current methods for personality control in Large Language Models rely on static prompting or expensive fine-tuning, failing to capture the dynamic and compositional nature of human traits. We introduce PERSONA, a training-free framework that achieves fine-tuning level performance through direct manipulation of personality vectors in activation space. Our key insight is that personality traits appear as extractable, approximately orthogonal directions in the model's representation space that support algebraic operations. The framework operates through three stages: Persona-Base extracts orthogonal trait vectors via contrastive activation analysis; Persona-Algebra enables precise control through vector arithmetic (scalar multiplication for intensity, addition for composition, subtraction for suppression); and Persona-Flow achieves context-aware adaptation by dynamically composing these vectors during inference. On PersonalityBench, our approach achieves a mean score of 9.60, nearly matching the supervised fine-tuning upper bound of 9.61 without any gradient updates. On our proposed Persona-Evolve benchmark for dynamic personality adaptation, we achieve up to 91% win rates across diverse model families. These results provide evidence that aspects of LLM personality are mathematically tractable, opening new directions for interpretable and efficient behavioral control.
- Abstract(参考訳): 大規模言語モデルにおけるパーソナリティ制御の現在の手法は、静的なプロンプトや高価な微調整に依存しており、人間の特性の動的および構成的性質を捉えていない。
本稿では,アクティベーション空間における人格ベクトルを直接操作することで,微調整レベルのパフォーマンスを実現する,トレーニング不要のフレームワークであるPERSONAを紹介する。
我々の重要な洞察は、パーソナリティ特性は、代数演算をサポートするモデルの表現空間におけるほぼ直交方向として抽出可能であるように見えることである。
Persona-Baseは、対照的なアクティベーション分析を通じて直交特性ベクトルを抽出し、Persona-Algebraはベクトル演算(インテンシティのスカラー乗算、合成の加算、抑制の減算)により正確な制御を可能にし、Persona-Flowは推論中にこれらのベクトルを動的に構成することでコンテキスト認識適応を実現する。
PersonalityBenchでは、この手法は平均スコア9.60を達成し、教師付き微調整上界9.61とほぼ一致している。
動的パーソナリティ適応のためのPersona-Evolveベンチマークでは,様々なモデルファミリーで最大91%の勝利率を達成した。
これらの結果は、LLMの性格の側面が数学的に抽出可能であり、解釈可能で効率的な行動制御のための新しい方向を開く証拠となる。
関連論文リスト
- The Geometry of Persona: Disentangling Personality from Reasoning in Large Language Models [6.115372688029641]
本稿では,線形表現仮説に基づくフレームワークであるSoul Engineを提案する。
凍結したQwen-2.5ベース上のデュアルヘッドアーキテクチャを用いて、非絡み合ったパーソナリティベクトルを抽出する。
このモデルは心理学的根拠の真実に対して0.011の平均二乗誤差(MSE)を達成する。
論文 参考訳(メタデータ) (2025-12-08T02:00:57Z) - Profile-LLM: Dynamic Profile Optimization for Realistic Personality Expression in LLMs [11.672385046863655]
PersonaPulseは、状況対応ベンチマークをスコアリングツールとして統合しながら、ロールプレイプロンプトを反復的に強化するフレームワークである。
定量的評価は、PersonaPulseが生成したプロンプトが先行作業のプロンプトより優れていることを示している。
特定の性格特性に対しては、最適化過程を緩和することにより、人格評価の程度を部分的に制御することができる。
論文 参考訳(メタデータ) (2025-11-25T02:31:40Z) - Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs [10.99947795031516]
大きな言語モデルは、その世代において暗黙の個性を示すが、特定のニーズを満たすためにこれらの特性を確実に制御または調整することは、未解決の課題である。
本稿では,大きな5つのパーソナリティ特性を用いて,変圧器層から隠れ状態のアクティベーションを抽出するパイプラインを提案する。
本研究により, 人格特性が低ランク共有部分空間を占有し, これらの潜在構造を有効操舵機構に変換できることが判明した。
論文 参考訳(メタデータ) (2025-10-29T05:56:39Z) - Vibe Check: Understanding the Effects of LLM-Based Conversational Agents' Personality and Alignment on User Perceptions in Goal-Oriented Tasks [2.1117030125341385]
大きな言語モデル(LLM)は、会話エージェント(CA)が特有の個性を表現することを可能にする。
本研究では、目標指向タスクにおける人格表現レベルとユーザエージェントの人格アライメントが知覚に与える影響について検討する。
論文 参考訳(メタデータ) (2025-09-11T21:43:49Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。