論文の概要: AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion
- arxiv url: http://arxiv.org/abs/2507.21778v1
- Date: Tue, 29 Jul 2025 13:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.349454
- Title: AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion
- Title(参考訳): AU-LLM:LLMによる機能融合によるマイクロ圧縮動作ユニット検出
- Authors: Zhishu Liu, Kaishen Yuan, Bo Zhao, Yong Xu, Zitong Yu,
- Abstract要約: 本稿では,微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおけるマイクロ圧縮アクションユニット(AU)の検出にLarge Language Modelsを用いた新しいフレームワークであるtextbfAU-LLMを紹介する。
EFPはMulti-Layer Perceptron(MLP)を用いて、特殊な3D-CNNバックボーンからの中間レベル(局所的なテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報密度トークンにインテリジェントに融合する。
- 参考スコア(独自算出の注目度): 26.058143518505805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The detection of micro-expression Action Units (AUs) is a formidable challenge in affective computing, pivotal for decoding subtle, involuntary human emotions. While Large Language Models (LLMs) demonstrate profound reasoning abilities, their application to the fine-grained, low-intensity domain of micro-expression AU detection remains unexplored. This paper pioneers this direction by introducing \textbf{AU-LLM}, a novel framework that for the first time uses LLM to detect AUs in micro-expression datasets with subtle intensities and the scarcity of data. We specifically address the critical vision-language semantic gap, the \textbf{Enhanced Fusion Projector (EFP)}. The EFP employs a Multi-Layer Perceptron (MLP) to intelligently fuse mid-level (local texture) and high-level (global semantics) visual features from a specialized 3D-CNN backbone into a single, information-dense token. This compact representation effectively empowers the LLM to perform nuanced reasoning over subtle facial muscle movements.Through extensive evaluations on the benchmark CASME II and SAMM datasets, including stringent Leave-One-Subject-Out (LOSO) and cross-domain protocols, AU-LLM establishes a new state-of-the-art, validating the significant potential and robustness of LLM-based reasoning for micro-expression analysis. The codes are available at https://github.com/ZS-liu-JLU/AU-LLMs.
- Abstract(参考訳): AU(Micro-Expression Action Units)の検出は、微妙で不随意的な人間の感情を復号する上で重要な、感情的コンピューティングにおける重大な課題である。
大規模言語モデル(LLM)は、深い推論能力を示すが、マイクロ圧縮AU検出の細粒度で低強度領域への応用は未解明のままである。
本稿では, 微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおいて, LLM を用いて AU を検出する新しいフレームワークである \textbf{AU-LLM} を導入することにより, この方向を開拓する。
具体的には、重要な視覚言語間セマンティックギャップである \textbf{Enhanced Fusion Projector (EFP) に対処する。
EFPは、Multi-Layer Perceptron(MLP)を使用して、特殊な3D-CNNバックボーンから、中レベル(ローカルなテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報センストークンにインテリジェントに融合する。
このコンパクトな表現は, LLMが微妙な顔面筋運動に対するニュアンス推論を効果的に行うことを可能にし, CASME II と SAMM のデータセットに対して, 厳密なLeave-One-Subject-Out (LOSO) やクロスドメインプロトコルを含む広範な評価を行った結果, AU-LLM は新たな最先端技術を確立し, LLM に基づくマイクロ圧縮解析の有意な可能性とロバスト性を検証した。
コードはhttps://github.com/ZS-liu-JLU/AU-LLMsで入手できる。
関連論文リスト
- MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception [47.80768014770871]
マイクロ圧縮大言語モデル(MELLM)を提案する。
MLLMの強い推論能力を備えた微妙な顔の動き知覚戦略を取り入れている。
我々のモデルは、マイクロ圧縮理解(MEU)において優れた堅牢性と一般化能力を示す。
論文 参考訳(メタデータ) (2025-05-11T15:08:23Z) - MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-05-04T06:58:21Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector [32.15773300068426]
既存の手法では、様々な高度なMIAスコア関数を設計し、高い検出性能を実現している。
より正確な事前学習データ検出器としてLLM自体を指示する命令ベースのMIA手法であるMIA-Tunerを提案する。
既存の手法とMIA-Tunerによってもたらされるプライバシーリスクを軽減すべく、2つの命令ベースのセーフガードを設計する。
論文 参考訳(メタデータ) (2024-08-16T11:09:56Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。