論文の概要: The Geometry of Persona: Disentangling Personality from Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.07092v1
- Date: Mon, 08 Dec 2025 02:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.675592
- Title: The Geometry of Persona: Disentangling Personality from Reasoning in Large Language Models
- Title(参考訳): ペルソナの幾何学--大規模言語モデルにおける推論からパーソナリティを遠ざける
- Authors: Zhixiang Wang,
- Abstract要約: 本稿では,線形表現仮説に基づくフレームワークであるSoul Engineを提案する。
凍結したQwen-2.5ベース上のデュアルヘッドアーキテクチャを用いて、非絡み合ったパーソナリティベクトルを抽出する。
このモデルは心理学的根拠の真実に対して0.011の平均二乗誤差(MSE)を達成する。
- 参考スコア(独自算出の注目度): 6.115372688029641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: The deployment of personalized Large Language Models (LLMs) is currently constrained by the stability-plasticity dilemma. Prevailing alignment methods, such as Supervised Fine-Tuning (SFT), rely on stochastic weight updates that often incur an "alignment tax" -- degrading general reasoning capabilities. Methods: We propose the Soul Engine, a framework based on the Linear Representation Hypothesis, which posits that personality traits exist as orthogonal linear subspaces. We introduce SoulBench, a dataset constructed via dynamic contextual sampling. Using a dual-head architecture on a frozen Qwen-2.5 base, we extract disentangled personality vectors without modifying the backbone weights. Results: Our experiments demonstrate three breakthroughs. First, High-Precision Profiling: The model achieves a Mean Squared Error (MSE) of 0.011 against psychological ground truth. Second, Geometric Orthogonality: T-SNE visualization confirms that personality manifolds are distinct and continuous, allowing for "Zero-Shot Personality Injection" that maintains original model intelligence. Third, Deterministic Steering: We achieve robust control over behavior via vector arithmetic, validated through extensive ablation studies. Conclusion: This work challenges the necessity of fine-tuning for personalization. By transitioning from probabilistic prompting to deterministic latent intervention, we provide a mathematically rigorous foundation for safe, controllable AI personalization.
- Abstract(参考訳): 背景: パーソナライズされた大規模言語モデル(LLM)のデプロイは、現在、安定性と可塑性のジレンマによって制限されています。
Supervised Fine-Tuning (SFT)のような一般的なアライメント手法は、しばしば「調整税」を発生させる確率的な重み更新に依存しており、一般的な推論能力は低下している。
方法: 直交線形部分空間としてパーソナリティ特性が存在することを示唆する線形表現仮説に基づくフレームワーク, Soul Engine を提案する。
動的コンテキストサンプリングによって構築されたデータセットであるSoulBenchを紹介する。
凍結したQwen-2.5ベース上のデュアルヘッドアーキテクチャを用いて,背骨重みを変更せずに非絡み合った個性ベクトルを抽出する。
結果: 実験は3つのブレークスルーを実証した。
第一に、高精度プロファイリング(High-Precision Profiling): このモデルは、心理学的根拠の真実に対して0.011の平均正方形誤差(MSE)を達成する。
第2に、幾何学的直交性:T-SNE視覚化は、パーソナリティ多様体が別個で連続であることを確認し、オリジナルのモデルインテリジェンスを維持する「ゼロショットパーソナリティ注入」を可能にする。
第三に、決定論的ステアリング(Deterministic Steering): 広範なアブレーション研究を通じて検証されたベクトル算術による行動の堅牢な制御を実現する。
結論: この研究はパーソナライズのための微調整の必要性に挑戦する。
確率的プロンプトから決定論的潜在介入に移行することで、安全で制御可能なAIパーソナライゼーションのための数学的に厳格な基礎を提供する。
関連論文リスト
- Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model [32.831576387973875]
安定, 高精度, 微粒な幾何的密度予測のための2段階決定的フレームワークを提案する。
特に、第1段階では、コア予測器は、クリーンデータ目的の単一ステップ決定論的定式化を採用する。
第2段階では、ディテールシャープナーは、コア予測器によって定義される多様体内で制約付き多段階整流補正を行う。
論文 参考訳(メタデータ) (2025-11-30T18:57:25Z) - The Alignment Game: A Theory of Long-Horizon Alignment Through Recursive Curation [13.835275211048113]
モデル所有者は、どのアウトプットをモデルによって学習すべきかをフィルタリングし、パブリックユーザは、どのアウトプットが最終的に共有され、モデルとのインタラクションによって保持されるかを決定する。
分析の結果,コンセンサス・コンセンサス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・コンバージェンス・アライメント・アライメント・アライメント・アライメントの程度によって,3つの構造的コンバージェンス・アライメント・アライメント・アライメント・アライメントが明らかになった。
我々は、アライメントは静的な目標ではなく、パワー対称性と経路依存の両方によって形成される平衡の進化であることを示した。
論文 参考訳(メタデータ) (2025-11-16T22:17:16Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - RigAnything: Template-Free Autoregressive Rigging for Diverse 3D Assets [44.655049022141384]
本稿では,新しい自己回帰変換モデルであるRigAnythingを紹介する。
関節と骨格のトポロジを確率的に生成し、スキンの重量をテンプレートのない方法で割り当てることで、3Dアセットをリグレディにする。
これは、ヒューマノイド、四足動物、海洋生物、昆虫など、さまざまな種類の物体にまたがる最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-02-13T18:59:13Z) - Identifiable Representation and Model Learning for Latent Dynamic Systems [0.0]
本稿では,潜在力学系における表現とモデル学習の問題について検討する。
線形およびアフィン非線形潜時力学系にスパース入力行列を持つ場合、潜時変数をスケーリングまで同定できることを証明した。
論文 参考訳(メタデータ) (2024-10-23T13:55:42Z) - Learning Physical Dynamics with Subequivariant Graph Neural Networks [99.41677381754678]
グラフニューラルネットワーク(GNN)は、物理力学を学習するための一般的なツールとなっている。
物理法則は、モデル一般化に必須な帰納バイアスである対称性に従属する。
本モデルは,RigidFall上でのPhysylonと2倍低ロールアウトMSEの8つのシナリオにおいて,平均3%以上の接触予測精度の向上を実現している。
論文 参考訳(メタデータ) (2022-10-13T10:00:30Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural
Implicit Shapes [117.76767853430243]
SNARFは多角形メッシュに対する線形ブレンドスキンの利点とニューラル暗黙表面の利点を組み合わせたものである。
反復ルート探索を用いて任意の変形点のすべての正準対応を探索するフォワードスキンモデルを提案する。
最先端のニューラルネットワークの暗黙的表現と比較すると,このアプローチは,精度を維持しつつ,未認識のポーズを一般化する。
論文 参考訳(メタデータ) (2021-04-08T17:54:59Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。