Fugu-MT 論文翻訳(概要): VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

論文の概要: VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

arxiv url: http://arxiv.org/abs/2603.08936v1
Date: Mon, 09 Mar 2026 21:10:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:23.83196
Title: VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs
Title（参考訳）: VoxEmo:LLMを用いた音声感情認識のベンチマーク
Authors: Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain,
Abstract要約: 音声大言語モデル (LLM) は, 音声の感情認識において, 生成インタフェースを介する大きな可能性を示す。クローズドセットからオープンテキスト生成へのシフトは、ゼロショット性を導入し、プロンプトに非常に敏感な評価を与える。本稿では,VoxEmoについて紹介する。VoxEmoは音声LLMのための15言語に35の感情コーパスを含む総合的なSERベンチマークである。
参考スコア（独自算出の注目度）: 54.75016325571445
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech Large Language Models (LLMs) show great promise for speech emotion recognition (SER) via generative interfaces. However, shifting from closed-set classification to open text generation introduces zero-shot stochasticity, making evaluation highly sensitive to prompts. Additionally, conventional speech LLMs benchmarks overlook the inherent ambiguity of human emotion. Hence, we present VoxEmo, a comprehensive SER benchmark encompassing 35 emotion corpora across 15 languages for Speech LLMs. VoxEmo provides a standardized toolkit featuring varying prompt complexities, from direct classification to paralinguistic reasoning. To reflect real-world perception/application, we introduce a distribution-aware soft-label protocol and a prompt-ensemble strategy that emulates annotator disagreement. Experiments reveal that while zero-shot speech LLMs trail supervised baselines in hard-label accuracy, they uniquely align with human subjective distributions.
Abstract（参考訳）: 音声大言語モデル (LLMs) は, 音声の感情認識(SER) において, 生成的インタフェースによる大きな期待を示す。しかし、クローズドセット分類からオープンテキスト生成へのシフトはゼロショット確率性を導入し、プロンプトに非常に敏感な評価を与える。加えて、従来のLLMのベンチマークは人間の感情の本質的な曖昧さを無視する。したがって、VoxEmoは、音声LLMのための15言語にわたる35の感情コーパスを含む総合的なSERベンチマークである。 VoxEmoは、直接分類からパラ言語的推論まで、様々な急激な複雑さを特徴とする標準化されたツールキットを提供する。実世界の認識/応用を反映するために,アノテータの不一致をエミュレートする分散対応ソフトラベルプロトコルと,アノテータの不一致をエミュレートするプロンプトアンサンブル戦略を導入する。実験の結果、ゼロショット音声LLMはハードレーベルの精度でベースラインを監督する一方で、人間の主観分布と一意に一致していることがわかった。

関連論文リスト

Seeing What You Say: Expressive Image Generation from Speech [39.6782945295833]
VoxStudioは、言語情報とパラ言語情報を共同で調整することで、音声記述から直接表現的画像を生成する。セマンティックトークンを直接操作することで、VoxStudioは追加の音声テキストシステムを必要としない。私たちはまた、高度なTSエンジンによって構築された大規模ペアの感情的音声画像データセットであるVoxEmosetをリリースしました。
論文参考訳（メタデータ） (2025-11-05T12:40:28Z)
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition [3.1649536621597973]
大規模音声言語モデル(LALM)は、音声タスク全体で強いゼロショット性能を示すが、音声感情認識(SER)に苦慮している。そこで我々は,感情推論におけるLALMを微調整なしでガイドするための,感情推論のためのCCoT-Emo(Compositional Chain-of-Thought Prompting for Emotion Reasoning)を提案する。
論文参考訳（メタデータ） (2025-09-29T20:06:03Z)
EmoSLLM: Parameter-Efficient Adaptation of LLMs for Speech Emotion Recognition [0.0]
音声からの感情認識は言語とパラ言語の両方を捉えることを必要とする難しい課題である。最近の研究は、Large Language Models(LLM)が唯一の自然言語領域の外でタスクを実行する能力を強調している。本研究は、感情予測のための音声およびテキスト表現を備えたLLMを微調整する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-08-19T06:58:16Z)
What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。 LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。 SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文参考訳（メタデータ） (2025-06-14T15:26:31Z)
Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文参考訳（メタデータ） (2024-10-02T01:32:47Z)
SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-03T22:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。