論文の概要: MELT: Towards Automated Multimodal Emotion Data Annotation by Leveraging LLM Embedded Knowledge
- arxiv url: http://arxiv.org/abs/2505.24493v1
- Date: Fri, 30 May 2025 11:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.931896
- Title: MELT: Towards Automated Multimodal Emotion Data Annotation by Leveraging LLM Embedded Knowledge
- Title(参考訳): MELT:LLM組込み知識を活用したマルチモーダル感情データアノテーションの実現に向けて
- Authors: Xin Jing, Jiadong Wang, Iosif Tsangko, Andreas Triantafyllopoulos, Björn W. Schuller,
- Abstract要約: 我々は,Sitecom Friends から収集したマルチモーダルデータセットに GPT-4o を適用した。
構造化テキストプロンプトを作成すれば,GPT-4oが学習中に蓄積した知識を活かすことができる。
4つの自己教師付き学習(SSL)バックボーンを微調整し,音声認識性能を評価することで,MELTの有効性を実証する。
- 参考スコア(独自算出の注目度): 45.04480661233793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although speech emotion recognition (SER) has advanced significantly with deep learning, annotation remains a major hurdle. Human annotation is not only costly but also subject to inconsistencies annotators often have different preferences and may lack the necessary contextual knowledge, which can lead to varied and inaccurate labels. Meanwhile, Large Language Models (LLMs) have emerged as a scalable alternative for annotating text data. However, the potential of LLMs to perform emotional speech data annotation without human supervision has yet to be thoroughly investigated. To address these problems, we apply GPT-4o to annotate a multimodal dataset collected from the sitcom Friends, using only textual cues as inputs. By crafting structured text prompts, our methodology capitalizes on the knowledge GPT-4o has accumulated during its training, showcasing that it can generate accurate and contextually relevant annotations without direct access to multimodal inputs. Therefore, we propose MELT, a multimodal emotion dataset fully annotated by GPT-4o. We demonstrate the effectiveness of MELT by fine-tuning four self-supervised learning (SSL) backbones and assessing speech emotion recognition performance across emotion datasets. Additionally, our subjective experiments\' results demonstrate a consistence performance improvement on SER.
- Abstract(参考訳): 音声感情認識(SER)は深層学習で大きく進歩しているが、注釈は依然として大きなハードルである。
人間のアノテーションは費用がかかるだけでなく、しばしば不整合アノテータは異なる好みを持ち、必要な文脈知識を欠いているため、ラベルの多様性や不正確さにつながる可能性がある。
一方、Large Language Models (LLMs) は、テキストデータのアノテートのためのスケーラブルな代替手段として登場した。
しかし,LLMが人間の監督なしに感情的な音声データアノテーションを行う可能性については,まだ十分に研究されていない。
これらの問題に対処するために、テキストキューのみを入力として、Sitecom Friendsから収集したマルチモーダルデータセットにGPT-4oを適用した。
構造化されたテキストプロンプトを作成することで,GPT-4oが学習中に蓄積した知識を活かし,マルチモーダル入力に直接アクセスすることなく,正確で文脈的に関連性の高いアノテーションを生成できることを示す。
そこで本研究では,GPT-4oで完全に注釈付けされたマルチモーダル感情データセットMELTを提案する。
本研究では、4つの自己教師付き学習(SSL)バックボーンを微調整し、感情データセット間での音声認識性能を評価することでMELTの有効性を実証する。
また, 主観評価実験の結果から, SERの性能改善が示された。
関連論文リスト
- Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification [56.974545305472304]
感情分析のためのほとんどのデータセットは、意見が表現された文脈を欠き、感情理解に不可欠であり、主にいくつかの感情カテゴリーによって制限される。
我々はLLMベースのデータ合成パイプラインを設計し、よりアクセスしやすい軽量BERT型エンコーダモデルのトレーニング例を生成するために、大規模モデルMistral-7bを利用する。
Emo Pillarsモデルは、GoEmotions、ISEAR、IEMOCAP、EmoContextといった特定のタスクに調整された場合、新しいドメインに対して高い適応性を示し、最初の3つでSOTAのパフォーマンスに達した。
論文 参考訳(メタデータ) (2025-04-23T16:23:17Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - Textualized and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild [45.29814349246784]
マルチモーダルな大言語モデル(LLM)は、異なる非テクストのモダリティからテキストに変換される可能性のある明示的な非言語的手がかりに依存している。
本稿では,ビデオにおける複合マルチモーダルERのテキストと特徴に基づくアプローチの可能性について比較する。
論文 参考訳(メタデータ) (2024-07-17T18:01:25Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Context Unlocks Emotions: Text-based Emotion Classification Dataset
Auditing with Large Language Models [23.670143829183104]
テキストデータに文脈情報がないため、テキストベースの感情分類データセットのアノテーションプロセスは困難である。
本稿では,このような文脈情報を強化するための促進戦略を動機付けるために,テキストコンテキストの形式的定義を提案する。
提案手法は, 経験的, 人的評価的両面から, 入力と人的アノテートラベルのアライメントを改善する。
論文 参考訳(メタデータ) (2023-11-06T21:34:49Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。