論文の概要: Controllable and explainable personality sliders for LLMs at inference time
- arxiv url: http://arxiv.org/abs/2603.03326v1
- Date: Tue, 10 Feb 2026 08:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.154381
- Title: Controllable and explainable personality sliders for LLMs at inference time
- Title(参考訳): 推論時間におけるLDMの制御可能で説明可能なパーソナリティスライダ
- Authors: Florian Hoppe, David Khachaturov, Robert Mullins, Mark Huasong Meng,
- Abstract要約: 連続多次元パーソナリティ制御のためのモジュラーフレームワークを提案する。
我々の重要な革新は、逐次適応ステアリング(SAS)である。これは、先行介入によってシフトした残流上のその後のプローブをトレーニングすることで、ステアリングベクトルを変換する手法である。
我々は,ビッグファイブの性格特性に関する枠組みを検証し,ゴール順守とコヒーレンスの両方において,ナイーブ・ベースラインを上回っていることを示す。
- 参考スコア(独自算出の注目度): 1.3688381983244782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning Large Language Models (LLMs) with specific personas typically relies on expensive and monolithic Supervised Fine-Tuning (SFT) or RLHF. While effective, these methods require training distinct models for every target personality profile. Inference-time activation steering offers a parameter-efficient alternative, yet naive approaches fail to control multiple traits simultaneously due to destructive vector interference. In this work, we propose a modular framework for continuous, multi-dimensional personality control. Our key innovation is Sequential Adaptive Steering (SAS): a method that orthogonalizes steering vectors by training subsequent probes on the residual stream shifted by prior interventions. This approach transforms steering vectors into reusable primitives, allowing users to instantly synthesize complex, high-fidelity personality profiles by simply adjusting coefficients alpha. We validate our framework on the Big Five personality traits, demonstrating that it outperforms naive baselines in both goal adherence and coherence, enabling precise, holistic personality modulation without updating model parameters.
- Abstract(参考訳): 特定のペルソナを持つ大規模言語モデル(LLM)の調整は通常、高価でモノリシックなSupervised Fine-Tuning(SFT)またはRLHFに依存している。
効果はあるものの、これらの手法は対象のパーソナリティプロファイルごとに異なるモデルを訓練する必要がある。
推論時のアクティベーションステアリングはパラメータ効率の良い代替手段を提供するが、単純なアプローチでは破壊的なベクトル干渉のために複数の特性を同時に制御できない。
本研究では,連続多次元パーソナリティ制御のためのモジュラーフレームワークを提案する。
シーケンシャル・アダプティブ・ステアリング(Sequential Adaptive Steering、SAS: Sequential Adaptive Steering)は、先行介入によってシフトした残流上のその後のプローブをトレーニングすることにより、ステアリングベクトルを直交化する手法である。
このアプローチは、ステアリングベクトルを再利用可能なプリミティブに変換し、簡単に係数をαに調整することで、複雑で高忠実なパーソナリティプロファイルを即座に合成することができる。
我々は,ビッグファイブ・パーソナリティ特性の枠組みを検証し,目標順守とコヒーレンスの両方においてナイーブ・ベースラインを上回り,モデルパラメータを更新することなく,正確で全体論的パーソナリティ変調を可能にすることを示した。
関連論文リスト
- Facet-Level Persona Control by Trait-Activated Routing with Contrastive SAE for Role-Playing LLMs [6.715533531385597]
Role-Playing Agents (RPAs) におけるパーソナリティコントロールは、トレーニング不要の手法によって一般的に達成される。
本稿では,Big Five 30-facetモデルに適合する顔レベルの人格制御ベクトルを学習するSparse AutoEncoderフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-22T12:39:02Z) - Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。