論文の概要: Neuron-Level Emotion Control in Speech-Generative Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2603.17231v1
- Date: Wed, 18 Mar 2026 00:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.456387
- Title: Neuron-Level Emotion Control in Speech-Generative Large Audio-Language Models
- Title(参考訳): 音声生成大言語モデルにおけるニューロンレベル感情制御
- Authors: Xiutian Zhao, Ismail Rasim Ulgen, Philipp Koehn, Björn Schuller, Berrak Sisman,
- Abstract要約: 大規模音声言語モデル(LALM)における感情制御のニューロンレベルでの最初の研究について述べる。
コンパクトな感情感受性ニューロン(ESN)は因果的に作用し、推論時に無訓練の感情ステアリングを可能にする。
本研究は,音声生成における無訓練感情制御のための機械的枠組みを構築した。
- 参考スコア(独自算出の注目度): 15.554739266839187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large audio-language models (LALMs) can produce expressive speech, yet reliable emotion control remains elusive: conversions often miss the target affect and may degrade linguistic fidelity through refusals, hallucinations, or paraphrase. We present, to our knowledge, the first neuron-level study of emotion control in speech-generative LALMs and demonstrate that compact emotion-sensitive neurons (ESNs) are causally actionable, enabling training-free emotion steering at inference time. ESNs are identified via success-filtered activation aggregation enforcing both emotion realization and content preservation. Across three LALMs (Qwen2.5-Omni-7B, MiniCPM-o 4.5, Kimi-Audio), ESN interventions yield emotion-specific gains that generalize to unseen speakers and are supported by automatic and human evaluation. Controllability depends on selector design, mask sparsity, filtering, and intervention strength. Our results establish a mechanistic framework for training-free emotion control in speech generation.
- Abstract(参考訳): 大規模な音声言語モデル(LALM)は、表現力のある音声を生成することができるが、信頼性のある感情制御はいまだ解明されていない。
我々は,音声生成型LALMにおける感情制御に関する最初のニューロンレベルでの研究を行い,コンパクトな感情感受性ニューロン(ESN)が因果的に作用し,推論時に無訓練の感情ステアリングを可能にすることを実証した。
ESNは、感情の実現とコンテンツ保存の両方を強制する成功フィルターによるアクティベーションアグリゲーションを介して同定される。
3つのLALM(Qwen2.5-Omni-7B, MiniCPM-o 4.5, Kimi-Audio)にまたがって、ESNの介入は、未知の話者に一般化し、自動的および人的評価によって支持される感情特異的利得をもたらす。
制御性はセレクタ設計、マスク間隔、フィルタリング、介入強度に依存する。
本研究は,音声生成における無訓練感情制御のための機械的枠組みを構築した。
関連論文リスト
- A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。
IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。
HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:07:30Z) - Discovering and Causally Validating Emotion-Sensitive Neurons in Large Audio-Language Models [8.550786156000461]
大規模音声言語モデル(LALM)における感情感受性ニューロン(ESN)のニューロンレベルでの解釈可能性の研究について紹介する。
複数の感情認識ベンチマークにおいて、周波数、エントロピー、等級、コントラストに基づくニューロンセレクタを比較した。
推論時間の介入を用いて、一貫した感情特異的なシグネチャを明らかにする。
論文 参考訳(メタデータ) (2026-01-06T15:46:35Z) - Do LLMs "Feel"? Emotion Circuits Discovery and Control [54.57583855608979]
本研究では、感情表現を引き起こす内部メカニズムと、生成したテキストにおける感情の制御について検討する。
これは、大きな言語モデルで感情回路を発見し、検証する最初の体系的な研究である。
論文 参考訳(メタデータ) (2025-10-13T12:24:24Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - From Rational Answers to Emotional Resonance: The Role of Controllable Emotion Generation in Language Models [16.350658746140788]
大規模言語モデル(LLM)は、一貫性があり、制御可能で、文脈的に適切な方法で感情を表現するのに苦労する。
感情ベクトル(EV)に基づく制御可能な感情生成フレームワークを提案する。
本手法は、追加のトレーニングやアーキテクチャの変更なしに、感情のトーンを微調整し、連続的に調整することができる。
論文 参考訳(メタデータ) (2025-02-06T13:38:57Z) - PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。
提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。
我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文 参考訳(メタデータ) (2025-01-10T12:10:30Z) - EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control [7.596581158724187]
EmoKnob(エモノブ)は、任意の感情の少数の実証的なサンプルを用いて、音声合成におけるきめ細かい感情制御を可能にするフレームワークである。
我々の感情制御フレームワークは、音声に感情を効果的に埋め込んで、商用TTSサービスの感情表現性を超越していることを示す。
論文 参考訳(メタデータ) (2024-10-01T01:29:54Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。