論文の概要: AIPsy-Affect: A Keyword-Free Clinical Stimulus Battery for Mechanistic Interpretability of Emotion in Language Models
- arxiv url: http://arxiv.org/abs/2604.23719v1
- Date: Sun, 26 Apr 2026 14:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.5212
- Title: AIPsy-Affect: A Keyword-Free Clinical Stimulus Battery for Mechanistic Interpretability of Emotion in Language Models
- Title(参考訳): AIPsy-Affect:言語モデルにおける感情の機械論的解釈のためのキーワードフリー臨床刺激電池
- Authors: Michael Keeman,
- Abstract要約: AIPsy-Affect(エイプシー・アフエフェクト)は480イテムの臨床刺激電池で、刺激レベルのコンファウンドを除去する。
線形プローブ、アクティベーションパッチ、SAE特徴解析、因果アブレーション、ステアリングベクトル抽出をサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability research on emotion in large language models -- linear probing, activation patching, sparse autoencoder (SAE) feature analysis, causal ablation, steering vector extraction -- depends on stimuli that contain the words for the emotions they test. When a probe fires on "I am furious", it is unclear whether the model has detected anger or detected the word "furious". The two readings have very different consequences for every downstream claim about emotion circuits, features, and interventions. We release AIPsy-Affect, a 480-item clinical stimulus battery that removes the confound at the stimulus level: 192 keyword-free vignettes evoking each of Plutchik's eight primary emotions through narrative situation alone, 192 matched neutral controls that share characters, setting, length, and surface structure with the affect surgically removed, plus moderate-intensity and discriminant-validity splits. The matched-pair structure supports linear probing, activation patching, SAE feature analysis, causal ablation, and steering vector extraction under a strong methodological guarantee: any internal representation that distinguishes a clinical item from its matched neutral cannot be doing so on the basis of emotion-keyword presence. A three-method NLP defense battery -- bag-of-words sentiment, an emotion-category lexicon, and a contextual transformer classifier -- confirms the property: bag-of-words methods see only situational vocabulary, and a contextual classifier detects affect (p < 10^-15) but cannot identify the category (5.2% top-1 vs. 82.5% on a keyword-rich control). AIPsy-Affect extends our earlier 96-item battery (arXiv:2603.22295) by a factor of four and is released openly under MIT license.
- Abstract(参考訳): 線形プローブ、アクティベーションパッチ、スパースオートエンコーダ(SAE)の特徴分析、因果アブレーション、ステアリングベクター抽出など、大きな言語モデルにおける感情に関する機械論的解釈可能性の研究は、彼らがテストした感情の単語を含む刺激に依存する。
プローブが「激怒している」と発火したとき、モデルが怒りを検知したのか、あるいは「激怒している」という言葉を検知したのかは不明である。
2つの読みは、感情回路、特徴、介入に関する下流の主張に対して、非常に異なる結果をもたらす。
AIPsy-Affect は480item の臨床刺激電池で,刺激レベルにおいてコンフォーンを除去する:192 キーワードフリーのヴィグネットは,物語的状況だけで,プルチックの8つの一次感情を誘発する。192 文字,設定,長さ,表面構造を共有するニュートラルコントロールは,外科的に除去される。
本発明のマッチングペア構造は、リニアプローブ、アクティベーションパッチ、SAE特徴分析、因果アブレーション、ステアリングベクター抽出を強力な方法論的保証の下でサポートしている。
バッグ・オブ・ワード(baba-of-words)の防衛用電池(baba-of-words sentiment)、感情カテゴリーのレキシコン(rexicon)、文脈変換器の分類器(contextual transformer classifier)は、その特性を確認している:baba-of-words method see only situational vocabulary, and a contextual classifier detects affect (p < 10^-15) but cannot identified the category (5.2% top-1 vs. 82.5% on a keyword-rich control)。
AIPsy-Affectは以前の96イテムバッテリー(arXiv:2603.22295)を4倍に拡張し、MITライセンス下で公開されている。
関連論文リスト
- Functional Emotions or Situational Contexts? A Discriminating Test from the Mythos Preview System Card [0.0]
Claude Mythos Previewシステムカードは、感情ベクトル、スパースオートエンコーダ機能、アクティベーション動詞をデプロイし、不整合動作中のモデル内部を研究する。
このノートは、公表された結果と質的に一致した2つの仮説を特定する。
どの仮説が正しいかは、感情に基づくモニタリングが危険なモデルの振る舞いを確実に検出するか、体系的に見逃すかを決定する。
論文 参考訳(メタデータ) (2026-04-09T19:32:44Z) - Whether, Not Which: Mechanistic Interpretability Reveals Dissociable Affect Reception and Emotion Categorization in LLMs [0.0]
臨床心理学を基礎とした機械的解釈可能性法による感情回路クレームの臨床的妥当性試験を初めて行った。
我々は2つの解離可能な感情処理機構を発見する。
我々は,大規模言語モデルにおける感情処理のクレームをテストするための厳格な基準として,臨床刺激法を紹介した。
論文 参考訳(メタデータ) (2026-03-15T15:11:45Z) - Do LLMs "Feel"? Emotion Circuits Discovery and Control [54.57583855608979]
本研究では、感情表現を引き起こす内部メカニズムと、生成したテキストにおける感情の制御について検討する。
これは、大きな言語モデルで感情回路を発見し、検証する最初の体系的な研究である。
論文 参考訳(メタデータ) (2025-10-13T12:24:24Z) - SEER: The Span-based Emotion Evidence Retrieval Benchmark [8.124633573706761]
感情を表現する特定のテキストを識別する大規模言語モデルの能力をテストするために,SEER(Span-based Emotion Evidence Retrieval)ベンチマークを導入する。
我々は14個のオープンソースLCMを評価し、あるモデルでは1文入力で平均的な人的パフォーマンスにアプローチするが、その精度は長いパスで低下する。
論文 参考訳(メタデータ) (2025-10-03T20:15:24Z) - DiEmo-TTS: Disentangled Emotion Representations via Self-Supervised Distillation for Cross-Speaker Emotion Transfer in Text-to-Speech [49.128847336227636]
音声合成における話者間感情伝達は、正確な感情モデリングのための話者非依存感情埋め込みの抽出に依存する。
本研究では,感情情報の損失を最小限に抑え,話者のアイデンティティを保持する自己教師型蒸留法であるDiEmo-TTSを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:47:39Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Unsupervised Extractive Summarization of Emotion Triggers [56.50078267340738]
我々は、感情を共同で検出し、トリガーを要約できる新しい教師なし学習モデルを開発した。
Emotion-Aware Pagerankと題された私たちのベストアプローチは、外部ソースからの感情情報と言語理解モジュールを組み合わせたものです。
論文 参考訳(メタデータ) (2023-06-02T11:07:13Z) - The MuSe 2022 Multimodal Sentiment Analysis Challenge: Humor, Emotional
Reactions, and Stress [71.06453250061489]
マルチモーダル・センチメント・アナリティクス・チャレンジ(MuSe 2022)は、マルチモーダル・センチメントと感情認識に重点を置いている。
今年の課題では、(i)ドイツサッカーコーチの音声-視覚的記録を含むPassau Spontaneous Football Coach Humorデータセット、(ii)ドイツサッカーコーチのユーモアの存在をラベル付けしたHum-Reactionデータセット、(ii)感情的表情強度に対して個人の反応が注釈付けされたHum-Reactionデータセット、(iii)ストレス的態度における人々の継続的な感情的価値観をラベル付けした音声-視覚的データからなるUlm-Trier Social Stress Testデータセットの3つのデータセットを特徴としている。
論文 参考訳(メタデータ) (2022-06-23T13:34:33Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。