Fugu-MT 論文翻訳(概要): A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

論文の概要: A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

arxiv url: http://arxiv.org/abs/2602.23300v1
Date: Thu, 26 Feb 2026 18:08:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.834105
Title: A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations
Title（参考訳）: 会話におけるマルチモーダル感情認識のためのMixture-of-Expertsモデル
Authors: Soumya Dutta, Smruthi Balaji, Sriram Ganapathy,
Abstract要約: 会話における感情認識(ERC)における2つの課題を分離するために,感情認識のためのモジュール型Mixture-of-Experts(MiSTER-E)フレームワークを提案する。 MiSTER-Eは、音声とテキストの両方に微調整された大きな言語モデル(LLM)を活用し、リッチな発話レベルの埋め込みを提供する。このシステムは、専門家のみ、テキストのみ、学習したゲーティングメカニズムを横断的に使用する3つの予測を統合している。
参考スコア（独自算出の注目度）: 24.302280709646563
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Emotion Recognition in Conversations (ERC) presents unique challenges, requiring models to capture the temporal flow of multi-turn dialogues and to effectively integrate cues from multiple modalities. We propose Mixture of Speech-Text Experts for Recognition of Emotions (MiSTER-E), a modular Mixture-of-Experts (MoE) framework designed to decouple two core challenges in ERC: modality-specific context modeling and multimodal information fusion. MiSTER-E leverages large language models (LLMs) fine-tuned for both speech and text to provide rich utterance-level embeddings, which are then enhanced through a convolutional-recurrent context modeling layer. The system integrates predictions from three experts-speech-only, text-only, and cross-modal-using a learned gating mechanism that dynamically weighs their outputs. To further encourage consistency and alignment across modalities, we introduce a supervised contrastive loss between paired speech-text representations and a KL-divergence-based regulariza-tion across expert predictions. Importantly, MiSTER-E does not rely on speaker identity at any stage. Experiments on three benchmark datasets-IEMOCAP, MELD, and MOSI-show that our proposal achieves 70.9%, 69.5%, and 87.9% weighted F1-scores respectively, outperforming several baseline speech-text ERC systems. We also provide various ablations to highlight the contributions made in the proposed approach.
Abstract（参考訳）: 会話における感情認識(Emotion Recognition in Conversations、ERC)は、複数の対話の時間的流れを捉え、複数のモーダルからの手がかりを効果的に統合するためにモデルを必要とする、ユニークな課題を提示する。本研究では,ERCにおける2つの課題,すなわちモダリティ特化コンテキストモデリングとマルチモーダル情報融合を分離するモジュール型Mixture-of-Experts (MoE) フレームワークであるMixture of Speech-Text Experts for Recognition of Emotions (MiSTER-E)を提案する。 MiSTER-Eは、音声とテキストの両方に微調整された大きな言語モデル(LLM)を活用し、リッチな発話レベルの埋め込みを提供する。このシステムは、音声のみ、テキストのみ、および学習されたゲーティングメカニズムを横断的に使用する3つの専門家による予測を統合し、出力を動的に測定する。モーダル性にまたがる一貫性と整合性をさらに促進するために、専門家の予測にまたがるペア音声テキスト表現とKL分割に基づく正規化の相互比較的損失を導入する。重要なことに、MiSTER-Eはどの段階でも話者識別に依存しない。提案手法が70.9%,69.5%,87.9%の重み付きF1スコアを達成した3つのベンチマークデータセット(IEMOCAP,MELD,MOSI-Show)は,いくつかのベースライン音声テキストERCシステムより優れていた。また、提案手法で行った貢献を強調するために、さまざまなアブリケーションも提供します。

関連論文リスト

Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文参考訳（メタデータ） (2026-02-10T14:31:11Z)
Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文参考訳（メタデータ） (2026-01-27T00:55:14Z)
A Unified Framework for Emotion Recognition and Sentiment Analysis via Expert-Guided Multimodal Fusion with Large Language Models [16.195689085967004]
本稿では,エキスパート誘導型マルチモーダル融合と大規模言語モデルを組み合わせた統合フレームワーク EGMF を提案する。提案手法では, 微妙な感情的ニュアンスに対するきめ細かなローカルエキスパート, クロスモーダルな関係に対する意味的相関の専門家, 長距離依存に対するグローバルなコンテキストエキスパートの3つの専門的ネットワークを特徴とする。
論文参考訳（メタデータ） (2026-01-12T14:21:32Z)
Beyond Hard Sharing: Efficient Multi-Task Speech-to-Text Modeling with Supervised Mixture of Experts [0.0]
S-MoE(Supervised Mixture of Experts)を提案する。 S-MoEは、各タスクを指定された専門家にルーティングする特別なガイドトークンを利用することで、ゲーティング機能のトレーニングを不要にする。我々は、S-MoEを音声-テキストモデルに適用し、自動音声認識(ASR)と音声翻訳(ST)を併用しながら、混合帯域入力を処理できるようにする。
論文参考訳（メタデータ） (2025-08-05T23:56:11Z)
CMT-LLM: Contextual Multi-Talker ASR Utilizing Large Language Models [23.278483193586887]
本稿では,複数話者の重なり合う音声認識とコンテキストバイアスをひとつのタスクに組み合わせた統合フレームワークを提案する。提案手法は従来の文脈バイアス法よりも優れており,WERはLibriMixで7.9%,AMI SDMで32.9%を達成している。
論文参考訳（メタデータ） (2025-05-31T07:26:44Z)
Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。 IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文参考訳（メタデータ） (2025-03-05T07:02:30Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。 InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文参考訳（メタデータ） (2023-09-21T09:22:07Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。