論文の概要: DEFT-LLM: Disentangled Expert Feature Tuning for Micro-Expression Recognition
- arxiv url: http://arxiv.org/abs/2511.10948v1
- Date: Fri, 14 Nov 2025 04:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.430613
- Title: DEFT-LLM: Disentangled Expert Feature Tuning for Micro-Expression Recognition
- Title(参考訳): DEFT-LLM:マイクロ圧縮認識のためのアンタングル型エキスパート特徴調整
- Authors: Ren Zhang, Huilai Li, Chao qi, Guoliang Xu, Tianyu Zhou, Wei wei, Jianqin Yin,
- Abstract要約: マルチエキスパート・ディアングルメントによるセマンティックアライメントを実現するDEFT-LLMを提案する。
まず,テキストと局所的な顔の動きを一致させる動作駆動型命令であるUni-MERを紹介する。
次に、3人の専門家によるアーキテクチャを設計し、顔のダイナミクスを独立した表現に分離します。
- 参考スコア(独自算出の注目度): 16.903294278064667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro expression recognition (MER) is crucial for inferring genuine emotion. Applying a multimodal large language model (MLLM) to this task enables spatio-temporal analysis of facial motion and provides interpretable descriptions. However, there are still two core challenges: (1) The entanglement of static appearance and dynamic motion cues prevents the model from focusing on subtle motion; (2) Textual labels in existing MER datasets do not fully correspond to underlying facial muscle movements, creating a semantic gap between text supervision and physical motion. To address these issues, we propose DEFT-LLM, which achieves motion semantic alignment by multi-expert disentanglement. We first introduce Uni-MER, a motion-driven instruction dataset designed to align text with local facial motion. Its construction leverages dual constraints from optical flow and Action Unit (AU) labels to ensure spatio-temporal consistency and reasonable correspondence to the movements. We then design an architecture with three experts to decouple facial dynamics into independent and interpretable representations (structure, dynamic textures, and motion-semantics). By integrating the instruction-aligned knowledge from Uni-MER into DEFT-LLM, our method injects effective physical priors for micro expressions while also leveraging the cross modal reasoning ability of large language models, thus enabling precise capture of subtle emotional cues. Experiments on multiple challenging MER benchmarks demonstrate state-of-the-art performance, as well as a particular advantage in interpretable modeling of local facial motion.
- Abstract(参考訳): マイクロ表現認識(MER)は、真の感情を推測するために重要である。
このタスクにMLLM(Multimodal large language model)を適用することで、顔の動きの時空間的解析を可能にし、解釈可能な記述を提供する。
しかし,(1)静的な外見とダイナミックな動きの絡み合いは,モデルが微妙な動きに焦点を合わせることを妨げている;(2)既存のMERデータセットのテキストラベルは,下層の顔面筋運動に完全に対応せず,テキストの監督と身体運動の間に意味的なギャップを生じさせる。
これらの問題に対処するため,マルチエキスパート・ディアングルメントによる動作意味的アライメントを実現するDEFT-LLMを提案する。
まず,テキストと局所的な顔の動きを一致させる動作駆動型指導データセットUni-MERを紹介する。
その構造は、光学フローとアクションユニット(AU)ラベルからの2つの制約を利用して、時空間整合性と運動に対する合理的な対応を保証する。
次に、3人の専門家によるアーキテクチャを設計し、顔のダイナミクスを独立した解釈可能な表現(構造、動的テクスチャ、モーション・セマンティック)に分離する。
本手法は,Uni-MER からの命令整合知識を DEFT-LLM に組み込むことで,マイクロ式に有効な物理先行情報を注入すると同時に,大規模言語モデルのクロスモーダル推論能力を活用し,微妙な感情的手がかりを正確に捉えることができる。
複数の挑戦的なMERベンチマークの実験では、最先端のパフォーマンスと、局所的な顔の動きの解釈可能なモデリングにおける特に利点が示されている。
関連論文リスト
- MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。
本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文 参考訳(メタデータ) (2025-07-16T04:15:06Z) - UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。
UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。
提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文 参考訳(メタデータ) (2025-05-19T07:02:12Z) - Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception [53.00485107136624]
マイクロ・エクスプレッション(ME)は、隠れた感情を示す、簡潔で低強度の顔の動きである。
本稿では,光学フローに基づく感度を微妙な顔の動きと統合する ME Large Language Model (MELLM) を提案する。
MELLMは複数のMEベンチマークで最先端の精度と一般化を実現する。
論文 参考訳(メタデータ) (2025-05-11T15:08:23Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。