Fugu-MT 論文翻訳(概要): Discovering and Causally Validating Emotion-Sensitive Neurons in Large Audio-Language Models

論文の概要: Discovering and Causally Validating Emotion-Sensitive Neurons in Large Audio-Language Models

arxiv url: http://arxiv.org/abs/2601.03115v1
Date: Tue, 06 Jan 2026 15:46:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-07 17:02:12.996816
Title: Discovering and Causally Validating Emotion-Sensitive Neurons in Large Audio-Language Models
Title（参考訳）: 大規模オーディオ言語モデルにおける感情知覚ニューロンの発見と因果的検証
Authors: Xiutian Zhao, Björn Schuller, Berrak Sisman,
Abstract要約: 大規模音声言語モデル(LALM)における感情感受性ニューロン(ESN)のニューロンレベルでの解釈可能性の研究について紹介する。複数の感情認識ベンチマークにおいて、周波数、エントロピー、等級、コントラストに基づくニューロンセレクタを比較した。推論時間の介入を用いて、一貫した感情特異的なシグネチャを明らかにする。
参考スコア（独自算出の注目度）: 8.550786156000461
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotion is a central dimension of spoken communication, yet, we still lack a mechanistic account of how modern large audio-language models (LALMs) encode it internally. We present the first neuron-level interpretability study of emotion-sensitive neurons (ESNs) in LALMs and provide causal evidence that such units exist in Qwen2.5-Omni, Kimi-Audio, and Audio Flamingo 3. Across these three widely used open-source models, we compare frequency-, entropy-, magnitude-, and contrast-based neuron selectors on multiple emotion recognition benchmarks. Using inference-time interventions, we reveal a consistent emotion-specific signature: ablating neurons selected for a given emotion disproportionately degrades recognition of that emotion while largely preserving other classes, whereas gain-based amplification steers predictions toward the target emotion. These effects arise with modest identification data and scale systematically with intervention strength. We further observe that ESNs exhibit non-uniform layer-wise clustering with partial cross-dataset transfer. Taken together, our results offer a causal, neuron-level account of emotion decisions in LALMs and highlight targeted neuron interventions as an actionable handle for controllable affective behaviors.
Abstract（参考訳）: 感情は音声通信の中心的な次元であるが、現代の大規模音声言語モデル(LALM)がそれを内部的にどのように符号化するかという力学的な説明はいまだに欠けている。 LALMにおける感情感受性ニューロン(ESN)のニューロンレベルでの初回解析を行い,Qwen2.5-Omni,Kimi-Audio,Audie Flamingo 3にそのような単位が存在することの因果的証拠を提供する。これら3つの広く使われているオープンソースモデルの中で、複数の感情認識ベンチマークにおいて、周波数、エントロピー、等級、コントラストに基づくニューロンセレクタを比較した。特定の感情に対して選択されたニューロンを非難することは、その感情の認識を不均等に低下させ、他のクラスをほとんど保存する一方で、ゲインベース増幅はターゲットの感情に対して予測を行う。これらの効果は、控えめな識別データによって生じ、介入強度とともに体系的にスケールする。さらに、ESNは部分的なクロスデータセット転送を伴う一様でない階層的クラスタリングを示す。本研究は、LALMにおける感情決定の因果的、ニューロンレベルの説明と、制御可能な感情行動のアクションハンドラとして、標的ニューロンの介入を強調した。

関連論文リスト

Memory-guided Prototypical Co-occurrence Learning for Mixed Emotion Recognition [56.00118641432005]
本稿では,感情共起パターンを明示的にモデル化するメモリ誘導型プロトタイプ共起学習フレームワークを提案する。人間の認知記憶システムに触発されて,意味レベルの共起関係を抽出するメモリ検索戦略を導入する。本モデルは感情分布予測のための感情情報表現を学習する。
論文参考訳（メタデータ） (2026-02-24T04:11:25Z)
Towards Interpretable Hallucination Analysis and Mitigation in LVLMs via Contrastive Neuron Steering [60.23509717784518]
既存の緩和法は主に出力レベルの調整に重点を置いており、幻覚を引き起こす内部メカニズムはほとんど探索されていない。クリーン入力とノイズ入力のコントラスト解析により画像特異的ニューロンを識別するコントラスト性ニューロンステアリング(CNS)を提案する。 CNSは摂動によって引き起こされる活性化を抑えつつ情報伝達ニューロンを選択的に増幅し、より堅牢でセマンティックな視覚表現を生み出す。
論文参考訳（メタデータ） (2026-01-31T09:21:04Z)
E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。 ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。 7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2026-01-11T13:21:20Z)
Decoding Predictive Inference in Visual Language Processing via Spatiotemporal Neural Coherence [2.208251557767776]
聴覚障害者の視覚言語刺激に対する神経応答を復号する機械学習フレームワークを提案する。言語理解における左半球と低周波のコヒーレンスを重要視した。この研究は、経験駆動の脳における知覚の生成モデルを探索するための新しいアプローチを示す。
論文参考訳（メタデータ） (2025-12-24T04:19:20Z)
Do LLMs "Feel"? Emotion Circuits Discovery and Control [54.57583855608979]
本研究では、感情表現を引き起こす内部メカニズムと、生成したテキストにおける感情の制御について検討する。これは、大きな言語モデルで感情回路を発見し、検証する最初の体系的な研究である。
論文参考訳（メタデータ） (2025-10-13T12:24:24Z)
Bridging the behavior-neural gap: A multimodal AI reveals the brain's geometry of emotion more accurately than human self-reports [18.336392633341493]
大規模な類似性判定は、脳の感情幾何学をより忠実に捉えることができることを示す。 MLLMは、リッチで神経に適応した感情表現を自律的に開発できるという、説得力のある証拠を提供する。
論文参考訳（メタデータ） (2025-09-29T05:22:33Z)
Decoding Neural Emotion Patterns through Large Language Model Embeddings [3.8032942955371785]
本稿では, 神経イメージングを必要とせずに, テキストの感情内容を解剖学的に定義された脳領域にマッピングする計算フレームワークを提案する。 OpenAIのテキスト埋め込み-ada-adaを用いて、高次元の意味表現を生成し、次元の縮小とクラスタリングを適用して感情グループを特定し、感情処理に関連する18の脳領域にマッピングする。このコスト効率が高くスケーラブルなアプローチは、自然言語を大規模に分析し、臨床集団を区別し、AIの感情表現を評価するための脳ベースのベンチマークを提供する。
論文参考訳（メタデータ） (2025-08-12T20:51:56Z)
CAST-Phys: Contactless Affective States Through Physiological signals Database [74.28082880875368]
感情的なマルチモーダルデータセットの欠如は、正確な感情認識システムを開発する上で、依然として大きなボトルネックとなっている。遠隔の生理的感情認識が可能な新しい高品質なデータセットであるCAST-Physを提示する。本分析では,表情だけでは十分な感情情報が得られない現実的なシナリオにおいて,生理的信号が重要な役割を担っていることを強調した。
論文参考訳（メタデータ） (2025-07-08T15:20:24Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文参考訳（メタデータ） (2023-09-13T12:58:09Z)
Emotion Analysis on EEG Signal Using Machine Learning and Neural Network [0.0]
本研究の目的は,脳信号を用いた感情認識能力の向上である。人間と機械の相互作用技術への様々なアプローチは長い間進行中であり、近年では脳信号を使って感情を自動的に理解することに成功した。
論文参考訳（メタデータ） (2023-07-09T09:50:34Z)
EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。 EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2023-03-20T13:58:35Z)
A Hierarchical Regression Chain Framework for Affective Vocal Burst Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文参考訳（メタデータ） (2023-03-14T16:08:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。