論文の概要: Facet-Level Persona Control by Trait-Activated Routing with Contrastive SAE for Role-Playing LLMs
- arxiv url: http://arxiv.org/abs/2602.19157v1
- Date: Sun, 22 Feb 2026 12:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.508119
- Title: Facet-Level Persona Control by Trait-Activated Routing with Contrastive SAE for Role-Playing LLMs
- Title(参考訳): ロールプレイングLLMのためのトラスト型SAEを用いたトラストアクティブルーティングによる顔レベルペルソナ制御
- Authors: Wenqiu Tang, Zhen Wan, Takahiro Komamizu, Ichiro Ide,
- Abstract要約: Role-Playing Agents (RPAs) におけるパーソナリティコントロールは、トレーニング不要の手法によって一般的に達成される。
本稿では,Big Five 30-facetモデルに適合する顔レベルの人格制御ベクトルを学習するSparse AutoEncoderフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.715533531385597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personality control in Role-Playing Agents (RPAs) is commonly achieved via training-free methods that inject persona descriptions and memory through prompts or retrieval-augmented generation, or via supervised fine-tuning (SFT) on persona-specific corpora. While SFT can be effective, it requires persona-labeled data and retraining for new roles, limiting flexibility. In contrast, prompt- and RAG-based signals are easy to apply but can be diluted in long dialogues, leading to drifting and sometimes inconsistent persona behavior. To address this, we propose a contrastive Sparse AutoEncoder (SAE) framework that learns facet-level personality control vectors aligned with the Big Five 30-facet model. A new 15,000-sample leakage-controlled corpus is constructed to provide balanced supervision for each facet. The learned vectors are integrated into the model's residual space and dynamically selected by a trait-activated routing module, enabling precise and interpretable personality steering. Experiments on Large Language Models (LLMs) show that the proposed method maintains stable character fidelity and output quality across contextualized settings, outperforming Contrastive Activation Addition (CAA) and prompt-only baselines. The combined SAE+Prompt configuration achieves the best overall performance, confirming that contrastively trained latent vectors can enhance persona control while preserving dialogue coherence.
- Abstract(参考訳): Role-Playing Agents (RPAs) のパーソナリティコントロールは、プロンプトや検索強化世代を通じてペルソナ記述や記憶を注入する訓練のない方法や、ペルソナ固有のコーパス上での教師付き微調整(SFT)によって一般的に達成される。
SFTは有効であるが、ペルソナラベルのデータと新しいロールの再トレーニングを必要とし、柔軟性を制限している。
対照的に、プロンプトとRAGに基づく信号は簡単に適用できるが、長い対話で希釈され、漂流し、時には矛盾するペルソナの振る舞いを引き起こす。
そこで本稿では,Big Five 30-facetモデルに適合する顔レベルの人格制御ベクトルを学習するSparse AutoEncoder (SAE) フレームワークを提案する。
新しい15,000サンプルの漏れ制御コーパスが構築され、各面に対するバランスの取れた監視を提供する。
学習ベクトルはモデルの残留空間に統合され、特性活性化ルーティングモジュールによって動的に選択され、正確かつ解釈可能なパーソナリティステアリングを可能にする。
LLM(Large Language Models)実験により,提案手法は,コンテクスト設定における文字の忠実度と出力品質を安定的に維持し,コントラストアクティベーション付加(CAA)とプロンプトのみのベースラインを向上することを示した。
SAE+Prompt構成の組み合わせは、比較訓練された潜在ベクトルが対話コヒーレンスを保ちながらペルソナ制御を向上させることを確認し、全体的なパフォーマンスを最高のものにする。
関連論文リスト
- PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra [84.59328460968872]
大規模言語モデルにおけるパーソナリティ制御の現在の手法は、静的なプロンプトや高価な微調整に依存している。
ペルソナ(PERSONA)は、人格ベクトルを直接操作することで、微調整レベルのパフォーマンスを実現する訓練不要のフレームワークである。
PersonalityBenchでは、この手法は平均スコア9.60を達成し、教師付き微調整上界9.61とほぼ一致している。
論文 参考訳(メタデータ) (2026-02-17T15:47:58Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Steer Model beyond Assistant: Controlling System Prompt Strength via Contrastive Decoding [33.569783099301695]
大規模な言語モデルは複雑な命令で優れているが、アシスタントペルソナからの逸脱に苦慮している。
本稿では,プロンプト付着を連続制御として扱う訓練不要なシステムプロンプト強度について紹介する。
論文 参考訳(メタデータ) (2026-01-10T02:56:38Z) - Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs [10.99947795031516]
大きな言語モデルは、その世代において暗黙の個性を示すが、特定のニーズを満たすためにこれらの特性を確実に制御または調整することは、未解決の課題である。
本稿では,大きな5つのパーソナリティ特性を用いて,変圧器層から隠れ状態のアクティベーションを抽出するパイプラインを提案する。
本研究により, 人格特性が低ランク共有部分空間を占有し, これらの潜在構造を有効操舵機構に変換できることが判明した。
論文 参考訳(メタデータ) (2025-10-29T05:56:39Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects [0.6087817758152709]
本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-09-05T04:19:15Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - SMART: Self-supervised Multi-task pretrAining with contRol Transformers [34.604339091596884]
自己指導型事前訓練は言語と視覚領域で広く研究されている。
シーケンシャルな意思決定タスクのための事前学習アプローチを適切に設計することは困難である。
逐次意思決定のための一般的な事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-24T05:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。