論文の概要: Valence-Arousal Subspace in LLMs: Circular Emotion Geometry and Multi-Behavioral Control
- arxiv url: http://arxiv.org/abs/2604.03147v1
- Date: Fri, 03 Apr 2026 16:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.529096
- Title: Valence-Arousal Subspace in LLMs: Circular Emotion Geometry and Multi-Behavioral Control
- Title(参考訳): LLMにおける原子価-覚醒部分空間:循環運動幾何学とマルチビヘイビア制御
- Authors: Lihao Sun, Lewen Yan, Xiaoya Lu, Andrew Lee, Jie Zhang, Jing Shao,
- Abstract要約: 感情ステアリングベクターを導出し、VA軸を上位PCA成分の線形結合として学習する。
VAサブスペースは、人間の感情知覚の確立したモデルと整合した円形の幾何学を示す。
- 参考スコア(独自算出の注目度): 25.46699328296852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method to identify a valence-arousal (VA) subspace within large language model representations. From 211k emotion-labeled texts, we derive emotion steering vectors, then learn VA axes as linear combinations of their top PCA components via ridge regression on the model's self-reported valence-arousal scores. The resulting VA subspace exhibits circular geometry consistent with established models of human emotion perception. Projections along our recovered VA subspace correlate with human-crowdsourced VA ratings across 44k lexical items. Furthermore, steering generation along these axes produces monotonic shifts in the corresponding affective dimensions of model outputs. Steering along these directions also induces near-monotonic bidirectional control over refusal and sycophancy: increasing arousal decreases refusal and increases sycophancy, and vice versa. These effects replicate across Llama-3.1-8B, Qwen3-8B, and Qwen3-14B, demonstrating cross-architecture generality. We provide a mechanistic account for these effects and prior emotionally-framed controls: refusal-associated tokens ("I can't," "sorry") occupy low-arousal, negative-valence regions, so VA steering directly modulates their emission probability.
- Abstract(参考訳): 本稿では,大言語モデル表現におけるvalence-arousal(VA)部分空間の同定手法を提案する。
211kの感情ラベル付きテキストから感情ステアリングベクターを導出し、モデルの自己申告価覚醒スコアのリッジレグレッションを通じて、上位PCAコンポーネントの線形結合としてVA軸を学習する。
結果として得られるVA部分空間は、人間の感情知覚の確立されたモデルと整合した円形の幾何学を示す。
回復したVAサブスペースに沿った投影は、44kの語彙項目にわたる人為的なVA評価と相関する。
さらに、これらの軸に沿ったステアリング生成は、モデル出力の対応する感情次元におけるモノトニックシフトを生成する。
これらの方向に沿ったステアリングはまた、拒絶と梅毒に対するほぼ単調な双方向制御を誘導し、覚醒の増大は拒絶を減少させ、梅毒の増大を増大させ、その逆も引き起こす。
これらの効果は、Llama-3.1-8B、Qwen3-8B、Qwen3-14Bにまたがって複製され、交差構造の一般性を示す。
拒絶関連トークン("I can't", "Sorry")は低刺激領域、負価領域を占有するので、VAステアリングは直接その放出確率を調節する。
関連論文リスト
- Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM [0.0]
以前の研究は、一部のLCMは、選択肢が痛みや快楽を引き起こすものとしてフレーム化されているときに選択を変更でき、そのような偏差は、記述された強度でスケール可能であることを示唆している。
本研究では, 変圧器内における原子価関連情報がどのように表現され, どこで因果的に使用されるかを検討する。
Gemma-2-9B-itと、前処理をモデルとした最小限の決定タスクを用いて、(i)ストリームを横断する層ワイドな線形プローブを用いて、表現の可用性をマップする。
我々は,活性化介入(ステアリング,パッチ,アブレーション)による因果的寄与を検証し,(iii)エプシロングリッド上での線量応答効果を定量化する。
論文 参考訳(メタデータ) (2026-02-22T12:42:38Z) - Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - AgentZero++: Modeling Fear-Based Behavior [4.783433971864009]
我々は,集団暴力をシミュレートするための認知,感情,社会的メカニズムを統合したエージェントベースモデルであるAgentZero++を提案する。
EpsteinのAgent_Zeroフレームワークをベースにして、8つの振る舞い拡張でオリジナルのモデルを拡張します。
これらの追加により、エージェントは内部の状態、以前の経験、社会的フィードバックに基づいて適応できる。
論文 参考訳(メタデータ) (2025-10-05T22:33:56Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Refusal in LLMs is an Affine Function [1.722461331472526]
本稿では,アフィン概念編集 (ACE) を言語モデルの振る舞いを制御するためのアプローチとして提案する。
ACEはアフィン部分空間の投影とアクティベーションの追加を組み合わせて、モデルの拒絶反応を確実に制御する。
実験の結果、ACEは既存の手法よりもモデル動作をより正確に制御できることがわかった。
論文 参考訳(メタデータ) (2024-11-13T20:12:55Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - It's LeVAsa not LevioSA! Latent Encodings for Valence-Arousal Structure
Alignment [3.6513059119482154]
本稿では、潜在空間とVA空間を整列させることにより暗黙構造を学習するVAEモデル「LeVAsa」を提案する。
以上の結果から,LeVAsaは低周波アライメントを実現し,下流のカテゴリー感情予測の改善につながることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-20T12:52:26Z) - CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。
本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。
その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文 参考訳(メタデータ) (2020-04-18T20:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。