論文の概要: MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception
- arxiv url: http://arxiv.org/abs/2505.07007v2
- Date: Thu, 23 Oct 2025 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.881456
- Title: MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception
- Title(参考訳): MELLM: サブストローク・モーション・パーセプションにより強化されたLLMを用いたマイクロ圧縮理解の探索
- Authors: Sirui Zhao, Zhengye Zhang, Shifeng Liu, Xinglong Mao, Shukang Yin, Chaoyou Fu, Tong Xu, Enhong Chen,
- Abstract要約: マイクロ・エクスプレッション(ME)は、隠れた感情を示す、簡潔で低強度の顔の動きである。
本稿では,光学フローに基づく感度を微妙な顔の動きと統合する ME Large Language Model (MELLM) を提案する。
MELLMは複数のMEベンチマークで最先端の精度と一般化を実現する。
- 参考スコア(独自算出の注目度): 53.00485107136624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-expressions (MEs), brief and low-intensity facial movements revealing concealed emotions, are crucial for affective computing. Despite notable progress in ME recognition, existing methods are largely confined to discrete emotion classification, lacking the capacity for comprehensive ME Understanding (MEU), particularly in interpreting subtle facial dynamics and underlying emotional cues. While Multimodal Large Language Models (MLLMs) offer potential for MEU with their advanced reasoning abilities, they still struggle to perceive such subtle facial affective behaviors. To bridge this gap, we propose a ME Large Language Model (MELLM) that integrates optical flow-based sensitivity to subtle facial motions with the powerful inference ability of LLMs. Specifically, an iterative, warping-based optical-flow estimator, named MEFlowNet, is introduced to precisely capture facial micro-movements. For its training and evaluation, we construct MEFlowDataset, a large-scale optical-flow dataset with 54,611 onset-apex image pairs spanning diverse identities and subtle facial motions. Subsequently, we design a Flow-Guided Micro-Expression Understanding paradigm. Under this framework, the optical flow signals extracted by MEFlowNet are leveraged to build MEU-Instruct, an instruction-tuning dataset for MEU. MELLM is then fine-tuned on MEU-Instruct, enabling it to translate subtle motion patterns into human-readable descriptions and generate corresponding emotional inferences. Experiments demonstrate that MEFlowNet significantly outperforms existing optical flow methods in facial and ME-flow estimation, while MELLM achieves state-of-the-art accuracy and generalization across multiple ME benchmarks. To the best of our knowledge, this work presents two key contributions: MEFlowNet as the first dedicated ME flow estimator, and MELLM as the first LLM tailored for MEU.
- Abstract(参考訳): 感情を隠蔽する微小表現(ME)は感情コンピューティングに不可欠である。
ME認識の顕著な進歩にもかかわらず、既存の手法は、主に個別の感情分類に限られており、特に微妙な顔力学と基礎となる感情的手がかりを解釈する際に、包括的なME理解能力(MEU)が欠如している。
MLLM(Multimodal Large Language Models)は、MEUが高度な推論能力を持つ可能性を秘めているが、それでもそのような微妙な顔の感情的行動を理解するのに苦労している。
このギャップを埋めるために,光学フローに基づく感度を微妙な顔の動きとLLMの強力な推論能力に統合するME Large Language Model (MELLM)を提案する。
具体的には, 顔の微小な動きを正確に捉えるために, MEFlowNet という反復型オプティカルフロー推定器が導入された。
そのトレーニングと評価のために、多様なアイデンティティと微妙な顔の動きにまたがる54,611個のオンセット・アプレックス画像対を持つ大規模光フローデータセットMEFlowDatasetを構築した。
その後、フローガイドによるマイクロ表現理解パラダイムを設計する。
このフレームワークでは、MEFlowNetによって抽出された光フロー信号を利用して、MEUのインストラクションチューニングデータセットであるMEU-Instructを構築する。
MELLMはMEU-Instructで微調整され、微妙な動きパターンを人間の読みやすい記述に翻訳し、対応する感情的推論を生成する。
実験により,MEFlowNetは顔およびMEフロー推定において既存の光学的フロー法を著しく上回り,MELLMは複数のMEベンチマークで最先端の精度と一般化を実現していることが示された。
私たちの知る限りでは、この研究はMeFlowNetを最初の専用のMEフロー推定器として、MELLMをMEU用に調整された最初のLLMとして、という2つの重要な貢献を示している。
関連論文リスト
- AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion [26.058143518505805]
本稿では,微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおけるマイクロ圧縮アクションユニット(AU)の検出にLarge Language Modelsを用いた新しいフレームワークであるtextbfAU-LLMを紹介する。
EFPはMulti-Layer Perceptron(MLP)を用いて、特殊な3D-CNNバックボーンからの中間レベル(局所的なテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報密度トークンにインテリジェントに融合する。
論文 参考訳(メタデータ) (2025-07-29T13:01:59Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation [29.514459004019024]
本稿では,ビニラMLLMに基づくMERCモデルに話者の振る舞いを組み込む行動認識型MLLMベースのフレームワーク(BeMERC)を提案する。
BeMERCは2つのベンチマークデータセットの最先端手法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2025-03-31T12:04:53Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - MOSABench: Multi-Object Sentiment Analysis Benchmark for Evaluating Multimodal Large Language Models Understanding of Complex Image [16.040813949620958]
マルチオブジェクト感情分析に特化して設計された新しい評価データセットMOSABenchを紹介する。
MOSABenchの主なイノベーションは、距離ベースのターゲットアノテーション、出力を標準化するための評価のための後処理、改良されたスコアリング機構である。
本研究は、複雑な多目的感情分析タスクにおける精度を高めるためのMLLMの必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2024-11-25T09:00:36Z) - Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。