論文の概要: Dynamic Parameter Memory: Temporary LoRA-Enhanced LLM for Long-Sequence Emotion Recognition in Conversation
- arxiv url: http://arxiv.org/abs/2507.09076v1
- Date: Fri, 11 Jul 2025 23:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.273641
- Title: Dynamic Parameter Memory: Temporary LoRA-Enhanced LLM for Long-Sequence Emotion Recognition in Conversation
- Title(参考訳): 動的パラメータ記憶:会話における長時間感情認識のための一時ロラ強調LDM
- Authors: Jialong Mai, Xiaofen Xing, Yawei Li, Zhipeng Li, Jingyuan Xing, Xiangmin Xu,
- Abstract要約: 音声大言語モデル(SLLM)はその容量限界に達する前に50Hzの特徴サンプリングレートで80秒の音声しか処理できない。
本稿では,文脈意味論と文レベルの感情エンコーディングを備えた動的メモリ(DPM)機構を提案する。
DPMは、文レベル情報と感情を推論中に一時的なLoRAモジュールにエンコードし、コンテキスト情報を効果的に「記憶」する。
- 参考スコア(独自算出の注目度): 23.226122130569607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has focused on applying speech large language model (SLLM) to improve speech emotion recognition (SER). However, the inherently high frame rate in speech modality severely limits the signal processing and understanding capabilities of SLLM. For example, a SLLM with a 4K context window can only process 80 seconds of audio at 50Hz feature sampling rate before reaching its capacity limit. Input token compression methods used in SLLM overlook the continuity and inertia of emotions across multiple conversation turns. This paper proposes a Dynamic Parameter Memory (DPM) mechanism with contextual semantics and sentence-level emotion encoding, enabling processing of unlimited-length audio with limited context windows in SLLM. Specifically, DPM progressively encodes sentence-level information and emotions into a temporary LoRA module during inference to effectively "memorize" the contextual information. We trained an emotion SLLM as a backbone and incorporated our DPM into inference for emotion recognition in conversation (ERC). Experimental results on the IEMOCAP dataset show that DPM significantly improves the emotion recognition capabilities of SLLM when processing long audio sequences, achieving state-of-the-art performance.
- Abstract(参考訳): 最近の研究は、音声感情認識(SER)を改善するために、音声大言語モデル(SLLM)の適用に焦点を当てている。
しかし、音声モダリティの本質的に高いフレームレートは、SLLMの信号処理と理解能力を著しく制限する。
例えば、4Kコンテキストウィンドウを持つSLLMは、容量制限に達する前に50Hzの特徴サンプリングレートで80秒のオーディオしか処理できない。
SLLMで使用される入力トークン圧縮法は、複数の会話のターンにおける感情の連続性と慣性を見落としている。
本稿では,文脈意味と文レベルの感情エンコーディングを備えた動的パラメータメモリ(DPM)機構を提案する。
具体的には、DPMは、文レベル情報と感情を推論中に一時的なLoRAモジュールに徐々にエンコードし、文脈情報を効果的に「記憶」する。
バックボーンとして感情SLLMを訓練し,会話における感情認識の推論にDPMを取り入れた。
IEMOCAPデータセットによる実験結果から、DPMは長い音声シーケンスを処理する際にSLLMの感情認識能力を著しく改善し、最先端の性能を実現していることがわかった。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation [29.514459004019024]
本稿では,ビニラMLLMに基づくMERCモデルに話者の振る舞いを組み込む行動認識型MLLMベースのフレームワーク(BeMERC)を提案する。
BeMERCは2つのベンチマークデータセットの最先端手法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2025-03-31T12:04:53Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - CoMPM: Context Modeling with Speaker's Pre-trained Memory Tracking for
Emotion Recognition in Conversation [0.0]
予め訓練されたメモリモジュール(PM)と組み合わせたコンテキスト埋め込みモジュール(CoM)を導入する。
事前学習した記憶は感情認識の最終的な精度を著しく向上させることを示す。
マルチパーティデータセット(MELD, EmoryNLP)とダイアドパーティデータセット(IEMOCAP, DailyDialog)の両方で実験を行った。
論文 参考訳(メタデータ) (2021-08-26T07:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。