論文の概要: Extracting and Steering Emotion Representations in Small Language Models: A Methodological Comparison
- arxiv url: http://arxiv.org/abs/2604.04064v1
- Date: Sun, 05 Apr 2026 11:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.90047
- Title: Extracting and Steering Emotion Representations in Small Language Models: A Methodological Comparison
- Title(参考訳): 小言語モデルにおける抽出とステアリングの感情表現:方法論的比較
- Authors: Jihoon Jeong,
- Abstract要約: 100M-10Bパラメータの小さな言語モデル (SLM) は、ますます電力生産システムに発展していった。
本研究では,SLMにおける感情ベクトル抽出法の比較分析を行った。
生成に基づく抽出は統計的に優れた感情分離を生成する。
我々はQwenにおける言語間感情の絡み合いを文書化し、そこではステアリングが意味的に整合した中国のトークンを活性化する。
- 参考スコア(独自算出の注目度): 4.358468367889626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small language models (SLMs) in the 100M-10B parameter range increasingly power production systems, yet whether they possess the internal emotion representations recently discovered in frontier models remains unknown. We present the first comparative analysis of emotion vector extraction methods for SLMs, evaluating 9 models across 5 architectural families (GPT-2, Gemma, Qwen, Llama, Mistral) using 20 emotions and two extraction methods (generation-based and comprehension-based). Generation-based extraction produces statistically superior emotion separation (Mann-Whitney p = 0.007; Cohen's d = -107.5), with the advantage modulated by instruction tuning and architecture. Emotion representations localize at middle transformer layers (~50% depth), following a U-shaped curve that is architecture-invariant from 124M to 3B parameters. We validate these findings against representational anisotropy baselines across 4 models and confirm causal behavioral effects through steering experiments, independently verified by an external emotion classifier (92% success rate, 37/40 scenarios). Steering reveals three regimes -- surgical (coherent text transformation), repetitive collapse, and explosive (text degradation) -- quantified by perplexity ratios and separated by model architecture rather than scale. We document cross-lingual emotion entanglement in Qwen, where steering activates semantically aligned Chinese tokens that RLHF does not suppress, raising safety concerns for multilingual deployment. This work provides methodological guidelines for emotion research on open-weight models and contributes to the Model Medicine series by bridging external behavioral profiling with internal representational analysis.
- Abstract(参考訳): 100M-10Bパラメータの小さな言語モデル (SLM) は、ますます電力生産システムとして使われるようになったが、最近フロンティアモデルで発見された内部の感情表現を持つかどうかは不明である。
20の感情と2つの抽出方法(世代ベースと理解ベース)を用いて、5つの建築家族(GPT-2, Gemma, Qwen, Llama, Mistral)の9つのモデルを評価する。
生成に基づく抽出は統計的に優れた感情分離(Mann-Whitney p = 0.007; Cohen's d = -107.5)を生成する。
感情表現は、124Mから3Bパラメータのアーキテクチャ不変なU字型曲線に従って、中間変圧器層(~50%深さ)で局在する。
本研究は,4モデル間の表現的異方性ベースラインに対して検証し,外部感情分類器(成功率92%,シナリオ37/40)で独立に検証したステアリング実験により因果的行動効果を確認した。
ステアリングは、手術的(コヒーレントなテキスト変換)、反復的崩壊、爆発的(テキスト劣化)の3つの体制を明らかにしている。
我々は、Qwenにおいて、RLHFが抑制しない意味的に整合した中国のトークンをステアリングが活性化し、多言語展開に対する安全性の懸念が高まるという、言語間感情の絡み合いを文書化している。
本研究は, オープンウェイトモデルに対する感情研究の方法論的ガイドラインを提供し, 内的表現分析による外的行動プロファイリングをブリッジすることで, モデルメディカルシリーズに貢献する。
関連論文リスト
- Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation [65.69228479949693]
Mixture-of-Experts (MoE)モデルは、言語間での大幅なパフォーマンス格差を示す。
我々は、ルーティングアイソレーションを利用して言語固有のエキスパートワークを特定し、適応するフレームワークRISE(Routing isolation-guided Subnetwork Enhancement)を提案する。
論文 参考訳(メタデータ) (2026-04-04T04:56:35Z) - HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文 参考訳(メタデータ) (2026-01-15T08:56:53Z) - Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation [0.0]
本研究は16種類の教科モデルを対象とした4つの音読ツールについて検討した。
シングルパス法は、ベンチマークしたサブセットで優れた性能を保った。
主な発見は、数学的推論能力は、消音介入に対して最も敏感であることを示している。
論文 参考訳(メタデータ) (2025-12-15T18:48:42Z) - Emotion Detection in Speech Using Lightweight and Transformer-Based Models: A Comparative and Ablation Study [0.41292255339309664]
本稿では,軽量トランスモデルであるDistilHuBERTとPaSSTの比較分析を行う。
MFCC機能を用いた従来のCNN-LSTMベースラインモデルと比較した。
DistilHuBERTは、非常に小さなモデルサイズ(0.02MB)を維持しながら、優れた精度(70.64%)とF1スコア(70.36%)を示す。
論文 参考訳(メタデータ) (2025-11-01T05:01:04Z) - Causal Intervention Framework for Variational Auto Encoder Mechanistic Interpretability [0.0]
本稿では,変分オートエンコーダ(VAE)の機械的解釈性に対する包括的因果介入フレームワークを提案する。
VAEの「回路モチーフ」を識別・解析する手法を開発し、ネットワーク層を通して意味的要因がどのようにコード化され、処理され、そして切り離されているかを調べる。
その結果、我々の介入は機能回路の分離に成功し、計算グラフを意味因子の因果グラフにマッピングし、多意味単位と単意味単位を区別できることがわかった。
論文 参考訳(メタデータ) (2025-05-06T13:40:59Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [78.20380492883022]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries [0.0]
大規模言語モデル(LLM)における感情境界処理を評価するためのオープンソースのベンチマークと評価フレームワークを提案する。
パターンマッチング応答解析により,3つのLLMを適切な感情境界を維持する能力で評価した。
本フレームワークは, 直接拒絶, 謝罪, 説明, 偏向, 認知, 境界設定, 感情認識の7つの主要なパターンにまたがる応答を定量化する。
論文 参考訳(メタデータ) (2025-02-20T19:09:40Z) - Transformer based neural networks for emotion recognition in conversations [4.915541242112533]
論文は、SemEval 2024 Task 10: Emotion Discovery and Reasoning its Flip in Conversation (EDiReF)におけるISDS-NLPチームのアプローチの概要である。
論文 参考訳(メタデータ) (2024-05-18T08:05:05Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。