Fugu-MT 論文翻訳(概要): Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model

論文の概要: Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model

arxiv url: http://arxiv.org/abs/2408.11286v2
Date: Thu, 22 Aug 2024 01:46:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 12:32:33.515125
Title: Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model
Title（参考訳）: マルチモーダル大言語モデルに基づく動画感情オープン語彙認識
Authors: Mengying Ge, Dongkai Tang, Mingyang Li,
Abstract要約: 本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。 MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。
参考スコア（独自算出の注目度）: 5.301672905886949
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal emotion recognition is a task of great concern. However, traditional data sets are based on fixed labels, resulting in models that often focus on main emotions and ignore detailed emotional changes in complex scenes. This report introduces the solution of using MLLMs technology to generate open-vocabulary emotion labels from a video. The solution includes the use of framework, data generation and processing, training methods, results generation and multi-model co-judgment. In the MER-OV (Open-Word Emotion Recognition) of the MER2024 challenge, our method achieved significant advantages, leading to its superior capabilities in complex emotion computation.
Abstract（参考訳）: マルチモーダル感情認識は大きな関心事である。しかし、従来のデータセットは固定ラベルに基づいており、多くの場合、主要な感情に焦点を当て、複雑なシーンにおける詳細な感情の変化を無視するモデルになる。本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。このソリューションには、フレームワーク、データ生成と処理、トレーニング方法、結果生成、マルチモデルの共同判断などが含まれる。 MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。

関連論文リスト

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding [45.13650362585136]
Emotion-LLaMAv2 と MMEVerse のベンチマークを行い、感情認識と推論のための標準化された評価設定とともにエンドツーエンドのパイプラインを構築した。エンドツーエンドのマルチビューエンコーダは、外部顔検出を排除し、よりリッチな空間的および時間的マルチビュートークンを介して、ニュアンス化された感情的手がかりをキャプチャする。 LLaMA2バックボーン内における認識と認識のカリキュラムのチューニングスキームは、感情認識と自由形式の感情推論を統一する。
論文参考訳（メタデータ） (2026-01-23T05:02:43Z)
Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。本手法は,対象感情と明確に一致した推論をモデルに導出する。我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文参考訳（メタデータ） (2025-10-27T16:40:17Z)
Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-01-16T12:27:05Z)
Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout [5.721743498917423]
ここでは,CLIPに基づいたモデルであるEmoVCLIPを紹介する。我々は、堅牢な情報融合のためにモダリティ・ドロップアウトを採用する。最後に、ラベルのないビデオを活用するために、自己学習戦略を利用する。
論文参考訳（メタデータ） (2024-09-11T08:06:47Z)
MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文参考訳（メタデータ） (2024-07-23T15:05:55Z)
Textualized and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild [45.29814349246784]
マルチモーダルな大言語モデル(LLM)は、異なる非テクストのモダリティからテキストに変換される可能性のある明示的な非言語的手がかりに依存している。本稿では,ビデオにおける複合マルチモーダルERのテキストと特徴に基づくアプローチの可能性について比較する。
論文参考訳（メタデータ） (2024-07-17T18:01:25Z)
EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。 EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文参考訳（メタデータ） (2024-06-24T08:33:02Z)
Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文参考訳（メタデータ） (2024-06-17T03:01:22Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Multimodal Emotion Recognition with Modality-Pairwise Unsupervised Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文参考訳（メタデータ） (2022-07-23T10:11:24Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。