論文の概要: MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception
- arxiv url: http://arxiv.org/abs/2505.07007v2
- Date: Thu, 23 Oct 2025 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.881456
- Title: MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception
- Title(参考訳): MELLM: サブストローク・モーション・パーセプションにより強化されたLLMを用いたマイクロ圧縮理解の探索
- Authors: Sirui Zhao, Zhengye Zhang, Shifeng Liu, Xinglong Mao, Shukang Yin, Chaoyou Fu, Tong Xu, Enhong Chen,
- Abstract要約: マイクロ・エクスプレッション(ME)は、隠れた感情を示す、簡潔で低強度の顔の動きである。
本稿では,光学フローに基づく感度を微妙な顔の動きと統合する ME Large Language Model (MELLM) を提案する。
MELLMは複数のMEベンチマークで最先端の精度と一般化を実現する。
- 参考スコア(独自算出の注目度): 53.00485107136624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-expressions (MEs), brief and low-intensity facial movements revealing concealed emotions, are crucial for affective computing. Despite notable progress in ME recognition, existing methods are largely confined to discrete emotion classification, lacking the capacity for comprehensive ME Understanding (MEU), particularly in interpreting subtle facial dynamics and underlying emotional cues. While Multimodal Large Language Models (MLLMs) offer potential for MEU with their advanced reasoning abilities, they still struggle to perceive such subtle facial affective behaviors. To bridge this gap, we propose a ME Large Language Model (MELLM) that integrates optical flow-based sensitivity to subtle facial motions with the powerful inference ability of LLMs. Specifically, an iterative, warping-based optical-flow estimator, named MEFlowNet, is introduced to precisely capture facial micro-movements. For its training and evaluation, we construct MEFlowDataset, a large-scale optical-flow dataset with 54,611 onset-apex image pairs spanning diverse identities and subtle facial motions. Subsequently, we design a Flow-Guided Micro-Expression Understanding paradigm. Under this framework, the optical flow signals extracted by MEFlowNet are leveraged to build MEU-Instruct, an instruction-tuning dataset for MEU. MELLM is then fine-tuned on MEU-Instruct, enabling it to translate subtle motion patterns into human-readable descriptions and generate corresponding emotional inferences. Experiments demonstrate that MEFlowNet significantly outperforms existing optical flow methods in facial and ME-flow estimation, while MELLM achieves state-of-the-art accuracy and generalization across multiple ME benchmarks. To the best of our knowledge, this work presents two key contributions: MEFlowNet as the first dedicated ME flow estimator, and MELLM as the first LLM tailored for MEU.
- Abstract(参考訳): 感情を隠蔽する微小表現(ME)は感情コンピューティングに不可欠である。
ME認識の顕著な進歩にもかかわらず、既存の手法は、主に個別の感情分類に限られており、特に微妙な顔力学と基礎となる感情的手がかりを解釈する際に、包括的なME理解能力(MEU)が欠如している。
MLLM(Multimodal Large Language Models)は、MEUが高度な推論能力を持つ可能性を秘めているが、それでもそのような微妙な顔の感情的行動を理解するのに苦労している。
このギャップを埋めるために,光学フローに基づく感度を微妙な顔の動きとLLMの強力な推論能力に統合するME Large Language Model (MELLM)を提案する。
具体的には, 顔の微小な動きを正確に捉えるために, MEFlowNet という反復型オプティカルフロー推定器が導入された。
そのトレーニングと評価のために、多様なアイデンティティと微妙な顔の動きにまたがる54,611個のオンセット・アプレックス画像対を持つ大規模光フローデータセットMEFlowDatasetを構築した。
その後、フローガイドによるマイクロ表現理解パラダイムを設計する。
このフレームワークでは、MEFlowNetによって抽出された光フロー信号を利用して、MEUのインストラクションチューニングデータセットであるMEU-Instructを構築する。
MELLMはMEU-Instructで微調整され、微妙な動きパターンを人間の読みやすい記述に翻訳し、対応する感情的推論を生成する。
実験により,MEFlowNetは顔およびMEフロー推定において既存の光学的フロー法を著しく上回り,MELLMは複数のMEベンチマークで最先端の精度と一般化を実現していることが示された。
私たちの知る限りでは、この研究はMeFlowNetを最初の専用のMEフロー推定器として、MELLMをMEU用に調整された最初のLLMとして、という2つの重要な貢献を示している。
関連論文リスト
- E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。
ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。
7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-11T13:21:20Z) - DEFT-LLM: Disentangled Expert Feature Tuning for Micro-Expression Recognition [16.903294278064667]
マルチエキスパート・ディアングルメントによるセマンティックアライメントを実現するDEFT-LLMを提案する。
まず,テキストと局所的な顔の動きを一致させる動作駆動型命令であるUni-MERを紹介する。
次に、3人の専門家によるアーキテクチャを設計し、顔のダイナミクスを独立した表現に分離します。
論文 参考訳(メタデータ) (2025-11-14T04:21:24Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - FMANet: A Novel Dual-Phase Optical Flow Approach with Fusion Motion Attention Network for Robust Micro-expression Recognition [0.0]
微妙な顔の動きを捉えるのが難しいため、微小な表情認識は困難である。
本稿では,マイクロ圧縮相とマイクロ圧縮相の運動力学を統合記述子に統合した総合的な動き表現を提案する。
次に、二相解析と等級変調を学習可能なモジュールに内部化する、新しいエンドツーエンドニューラルネットワークアーキテクチャであるFMANetを提案する。
論文 参考訳(メタデータ) (2025-10-09T05:36:40Z) - MPT: Motion Prompt Tuning for Micro-Expression Recognition [47.62949098749473]
本稿では,MERのための事前学習モデルに適用するための新しいアプローチとして,MPT(Motion Prompt Tuning)を提案する。
特に、動きの倍率化やガウストークン化などの動きのプロンプト生成を導入し、微妙な動きをLMのプロンプトとして抽出する。
広範に使われている3つのMERデータセットに対して行われた大規模な実験により、提案したMPTが最先端のアプローチを一貫して超越していることが証明された。
論文 参考訳(メタデータ) (2025-08-13T02:57:43Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion [26.058143518505805]
本稿では,微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおけるマイクロ圧縮アクションユニット(AU)の検出にLarge Language Modelsを用いた新しいフレームワークであるtextbfAU-LLMを紹介する。
EFPはMulti-Layer Perceptron(MLP)を用いて、特殊な3D-CNNバックボーンからの中間レベル(局所的なテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報密度トークンにインテリジェントに融合する。
論文 参考訳(メタデータ) (2025-07-29T13:01:59Z) - MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering [54.0963629109064]
顔小表情(英: Facial micro-Expression、ME)は、感情を経験するときに自然に発生する顔の不随意運動である。
近年、ME認識、スポッティング、生成の領域でかなりの進歩を遂げている。
MEグランドチャレンジ(MEGC)2025では、これら研究の方向性を反映した2つのタスクが導入されている。
論文 参考訳(メタデータ) (2025-06-18T09:29:51Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation [29.514459004019024]
本稿では,ビニラMLLMに基づくMERCモデルに話者の振る舞いを組み込む行動認識型MLLMベースのフレームワーク(BeMERC)を提案する。
BeMERCは2つのベンチマークデータセットの最先端手法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2025-03-31T12:04:53Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - MOSABench: Multi-Object Sentiment Analysis Benchmark for Evaluating Multimodal Large Language Models Understanding of Complex Image [16.040813949620958]
マルチオブジェクト感情分析に特化して設計された新しい評価データセットMOSABenchを紹介する。
MOSABenchの主なイノベーションは、距離ベースのターゲットアノテーション、出力を標準化するための評価のための後処理、改良されたスコアリング機構である。
本研究は、複雑な多目的感情分析タスクにおける精度を高めるためのMLLMの必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2024-11-25T09:00:36Z) - Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - From Macro to Micro: Boosting micro-expression recognition via pre-training on macro-expression videos [9.472210792839023]
マイクロ圧縮認識(MER)は、インテリジェント医療や嘘検出に応用される可能性があるため、近年注目を集めている。
我々は、textbfMAcro-expression textbfTO textbfMIcro-expression (MA2MI) と呼ばれる一般化トランスファー学習パラダイムを提案する。
我々のパラダイムでは、ネットワークは将来のフレームを再構築することで、微妙な顔の動きを表現する能力を学ぶことができる。
論文 参考訳(メタデータ) (2024-05-26T06:42:06Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。