論文の概要: Negative Before Positive: Asymmetric Valence Processing in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.05653v1
- Date: Thu, 07 May 2026 04:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.513735
- Title: Negative Before Positive: Asymmetric Valence Processing in Large Language Models
- Title(参考訳): 肯定前の否定: 大規模言語モデルにおける非対称値処理
- Authors: Sohan Venkatesh,
- Abstract要約: 本研究では,大規模言語モデル (LLM) が内部構造や表面トークンマッチングを通じて感情価を処理しているかを検討する。
負の結果は初期層に局在し、正の結果は中期から後期層にピークとなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability has revealed how concepts are encoded in large language models (LLMs), but emotional content remains poorly understood at the mechanistic level. We study whether LLMs process emotional valence through dedicated internal structure or through surface token matching. Using activation patching and steering on open-source LLMs, we find that negative and positive valence are processed at different network depths. Negative outcomes localize to early layers while positive outcomes peak at mid-to-late layers. Holding topic fixed while flipping valence produces sign-opposite responses, ruling out topic detection. Steering with the good-news direction at the identified layers shifts neutral prompts toward positive valence, showing these layers encode valence as a manipulable direction. Emotional valence in LLMs is localized, causal and steerable, making it a concrete target for interpretability-based oversight.
- Abstract(参考訳): 機械的解釈性は、概念を大規模言語モデル(LLM)にエンコードする方法を明らかにしているが、感情的内容は力学レベルでは理解されていない。
LLMは、専用の内部構造を通して感情価を処理しているか、それとも表面トークンマッチングを通して処理するかを検討する。
オープンソースのLCM上でのアクティベーションパッチとステアリングを用いて、負の値と正の値が異なるネットワーク深さで処理されることがわかった。
負の結果は初期層に局在し、正の結果は中期から後期層にピークとなる。
値の反転中に固定されたトピックを保持すると、サイン-オポポジト応答が発生し、トピック検出を除外する。
同定された層での善新な方向でのステアリングは、中立的なプロンプトを正の原子価へシフトさせ、これらの層が原子価をマニピュラブルな方向として符号化していることを示す。
LLMの感情価は局所化され、因果的であり、制御可能であり、解釈可能性に基づく監視の具体的な標的となる。
関連論文リスト
- From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs [48.33546389897804]
R1型LPMは自己反射の能力に注目が集まっているが、そのような行動の基盤となる内部メカニズムはいまだ不明である。
logitレンズを使ってトークンレベルのセマンティクスを読み取ると、構造化された進行が明らかになる。
以上の結果から,潜時モニタリングから談話レベルの規制,そして最終的に自己回帰を過大化させる,人間的なメタ認知プロセスの進展が示唆された。
論文 参考訳(メタデータ) (2026-02-02T11:58:24Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Analysing Moral Bias in Finetuned LLMs through Mechanistic Interpretability [0.7710436567988378]
大型言語モデル(LLM)は、微調整中に人間のようなバイアスを内部化する。
意図性における道徳的バイアスであるノベ効果は、微調整されたLLMに現れる。
対応する事前訓練されたモデルからのアクティベーションをいくつかの重要なレイヤにパッチすることは、その効果を排除するのに十分です。
論文 参考訳(メタデータ) (2025-10-14T07:31:29Z) - LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components [0.17188280334580197]
LLM(Large Language Models)は、しばしば過剰な自信を示し、高い文脈で不確実性のある情報を提示する。
我々は、人間の注釈付きアサーション性データセットを微調整したオープンソースのLlama 3.2モデルを使用している。
分析により,アサーションのコントラストに最も敏感な層が同定され,高いアサーティブ表現が感情的・論理的クラスタの2つのサブコンポーネントに分解されることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-24T01:43:48Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。