論文の概要: Discovering and Causally Validating Emotion-Sensitive Neurons in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2601.03115v1
- Date: Tue, 06 Jan 2026 15:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.996816
- Title: Discovering and Causally Validating Emotion-Sensitive Neurons in Large Audio-Language Models
- Title(参考訳): 大規模オーディオ言語モデルにおける感情知覚ニューロンの発見と因果的検証
- Authors: Xiutian Zhao, Björn Schuller, Berrak Sisman,
- Abstract要約: 大規模音声言語モデル(LALM)における感情感受性ニューロン(ESN)のニューロンレベルでの解釈可能性の研究について紹介する。
複数の感情認識ベンチマークにおいて、周波数、エントロピー、等級、コントラストに基づくニューロンセレクタを比較した。
推論時間の介入を用いて、一貫した感情特異的なシグネチャを明らかにする。
- 参考スコア(独自算出の注目度): 8.550786156000461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion is a central dimension of spoken communication, yet, we still lack a mechanistic account of how modern large audio-language models (LALMs) encode it internally. We present the first neuron-level interpretability study of emotion-sensitive neurons (ESNs) in LALMs and provide causal evidence that such units exist in Qwen2.5-Omni, Kimi-Audio, and Audio Flamingo 3. Across these three widely used open-source models, we compare frequency-, entropy-, magnitude-, and contrast-based neuron selectors on multiple emotion recognition benchmarks. Using inference-time interventions, we reveal a consistent emotion-specific signature: ablating neurons selected for a given emotion disproportionately degrades recognition of that emotion while largely preserving other classes, whereas gain-based amplification steers predictions toward the target emotion. These effects arise with modest identification data and scale systematically with intervention strength. We further observe that ESNs exhibit non-uniform layer-wise clustering with partial cross-dataset transfer. Taken together, our results offer a causal, neuron-level account of emotion decisions in LALMs and highlight targeted neuron interventions as an actionable handle for controllable affective behaviors.
- Abstract(参考訳): 感情は音声通信の中心的な次元であるが、現代の大規模音声言語モデル(LALM)がそれを内部的にどのように符号化するかという力学的な説明はいまだに欠けている。
LALMにおける感情感受性ニューロン(ESN)のニューロンレベルでの初回解析を行い,Qwen2.5-Omni,Kimi-Audio,Audie Flamingo 3にそのような単位が存在することの因果的証拠を提供する。
これら3つの広く使われているオープンソースモデルの中で、複数の感情認識ベンチマークにおいて、周波数、エントロピー、等級、コントラストに基づくニューロンセレクタを比較した。
特定の感情に対して選択されたニューロンを非難することは、その感情の認識を不均等に低下させ、他のクラスをほとんど保存する一方で、ゲインベース増幅はターゲットの感情に対して予測を行う。
これらの効果は、控えめな識別データによって生じ、介入強度とともに体系的にスケールする。
さらに、ESNは部分的なクロスデータセット転送を伴う一様でない階層的クラスタリングを示す。
本研究は、LALMにおける感情決定の因果的、ニューロンレベルの説明と、制御可能な感情行動のアクションハンドラとして、標的ニューロンの介入を強調した。
関連論文リスト
- Do LLMs "Feel"? Emotion Circuits Discovery and Control [54.57583855608979]
本研究では、感情表現を引き起こす内部メカニズムと、生成したテキストにおける感情の制御について検討する。
これは、大きな言語モデルで感情回路を発見し、検証する最初の体系的な研究である。
論文 参考訳(メタデータ) (2025-10-13T12:24:24Z) - Decoding Neural Emotion Patterns through Large Language Model Embeddings [3.8032942955371785]
本稿では, 神経イメージングを必要とせずに, テキストの感情内容を解剖学的に定義された脳領域にマッピングする計算フレームワークを提案する。
OpenAIのテキスト埋め込み-ada-adaを用いて、高次元の意味表現を生成し、次元の縮小とクラスタリングを適用して感情グループを特定し、感情処理に関連する18の脳領域にマッピングする。
このコスト効率が高くスケーラブルなアプローチは、自然言語を大規模に分析し、臨床集団を区別し、AIの感情表現を評価するための脳ベースのベンチマークを提供する。
論文 参考訳(メタデータ) (2025-08-12T20:51:56Z) - CAST-Phys: Contactless Affective States Through Physiological signals Database [74.28082880875368]
感情的なマルチモーダルデータセットの欠如は、正確な感情認識システムを開発する上で、依然として大きなボトルネックとなっている。
遠隔の生理的感情認識が可能な新しい高品質なデータセットであるCAST-Physを提示する。
本分析では,表情だけでは十分な感情情報が得られない現実的なシナリオにおいて,生理的信号が重要な役割を担っていることを強調した。
論文 参考訳(メタデータ) (2025-07-08T15:20:24Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。