論文の概要: Mechanistic Decoding of Cognitive Constructs in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.14593v3
- Date: Wed, 22 Apr 2026 09:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.251092
- Title: Mechanistic Decoding of Cognitive Constructs in Large Language Models
- Title(参考訳): 大規模言語モデルにおける認知構造の機械的復号化
- Authors: Yitong Shou, Manhao Guan,
- Abstract要約: 本稿では,表現工学に基づく認知的リバースエンジニアリングフレームワークを提案する。
評価理論を部分空間化、回帰に基づく重み付け、双方向因果操りと組み合わせることで、2つの心理学的先駆者(妬み)を分離・定量化する。
また, 有害な情動状態が機械的に検出され, 外科的に抑制される可能性を示し, マルチエージェント環境におけるAIの安全性に対する表現的モニタリングと介入への道のりが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) demonstrate increasingly sophisticated affective capabilities, the internal mechanisms by which they process complex emotions remain unclear. Existing interpretability approaches often treat models as black boxes or focus on coarse-grained basic emotions, leaving the cognitive structure of more complex affective states underexplored. To bridge this gap, we propose a Cognitive Reverse-Engineering framework based on Representation Engineering (RepE) to analyze social-comparison jealousy. By combining appraisal theory with subspace orthogonalization, regression-based weighting, and bidirectional causal steering, we isolate and quantify two psychological antecedents of jealousy, Superiority of Comparison Person and Domain Self-Definitional Relevance, and examine their causal effects on model judgments. Experiments on eight LLMs from the Llama, Qwen, and Gemma families suggest that models natively encode jealousy as a structured linear combination of these constituent factors. Their internal representations are broadly consistent with the human psychological construct, treating Superiority as the foundational trigger and Relevance as the ultimate intensity multiplier. Our framework also demonstrates that toxic emotional states can be mechanically detected and surgically suppressed, suggesting a possible route toward representational monitoring and intervention for AI safety in multi-agent environments.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ますます洗練された感情的能力を示すが、それらが複雑な感情を処理する内部メカニズムはいまだ不明である。
既存の解釈可能性のアプローチは、しばしばモデルをブラックボックスとして扱うか、または粗い粒度の基本的な感情に焦点を当て、より複雑な感情状態の認知構造を過小評価している。
このギャップを埋めるために,Representation Engineering (RepE) に基づく認知的リバースエンジニアリングフレームワークを提案する。
評価理論を,部分空間の直交化,回帰に基づく重み付け,双方向の因果操作と組み合わせることで,モデル判断における因果的影響について検討した。
Llama, Qwen, Gemma の8つの LLM に関する実験では、モデルがこれらの因子の構造化線形結合としてアレンジイをネイティブにエンコードしていることが示唆されている。
彼らの内部表現は、人間の心理的構成と大きく一致しており、超越性を基本的な引き金として扱い、相対性は究極的な強度乗数として扱う。
また, 有害な情動状態が機械的に検出され, 外科的に抑制される可能性を示し, マルチエージェント環境におけるAIの安全性に対する表現的モニタリングと介入への道のりが示唆された。
関連論文リスト
- A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms [49.66022971508878]
私たちは、推論はモジュラーコンポーネントからシステムの認知コアに高めるべきだと論じています。
応答性推論のトレードオフやソーシャルゲーム推論など,7つの中核的推論課題を導出し,体系化する。
我々は,LLMに基づく推論と,ミリ秒スケールで安全クリティカルな車両制御の要求との間の,高レイテンシ,熟考的特性の根本的かつ未解決な緊張関係を同定する。
論文 参考訳(メタデータ) (2026-03-11T07:40:53Z) - Memory-guided Prototypical Co-occurrence Learning for Mixed Emotion Recognition [56.00118641432005]
本稿では,感情共起パターンを明示的にモデル化するメモリ誘導型プロトタイプ共起学習フレームワークを提案する。
人間の認知記憶システムに触発されて,意味レベルの共起関係を抽出するメモリ検索戦略を導入する。
本モデルは感情分布予測のための感情情報表現を学習する。
論文 参考訳(メタデータ) (2026-02-24T04:11:25Z) - E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。
ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。
7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-11T13:21:20Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - Automatic Minds: Cognitive Parallels Between Hypnotic States and Large Language Model Processing [0.0]
覚醒心の認知過程と大きな言語モデルの計算操作は、深い機能的並列性を共有している。
両方のシステムは、自動パターン補完機構を通じて、洗練された、文脈的に適切な振る舞いを生成する。
信頼できるAIの未来は、ジェネレーティブ・フラレンシーとエグゼクティブ・モニタリングのメカニズムを統合するハイブリッド・アーキテクチャにある。
論文 参考訳(メタデータ) (2025-11-03T09:08:50Z) - LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components [0.17188280334580197]
LLM(Large Language Models)は、しばしば過剰な自信を示し、高い文脈で不確実性のある情報を提示する。
我々は、人間の注釈付きアサーション性データセットを微調整したオープンソースのLlama 3.2モデルを使用している。
分析により,アサーションのコントラストに最も敏感な層が同定され,高いアサーティブ表現が感情的・論理的クラスタの2つのサブコンポーネントに分解されることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-24T01:43:48Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。