論文の概要: AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion
- arxiv url: http://arxiv.org/abs/2507.21778v1
- Date: Tue, 29 Jul 2025 13:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.349454
- Title: AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion
- Title(参考訳): AU-LLM:LLMによる機能融合によるマイクロ圧縮動作ユニット検出
- Authors: Zhishu Liu, Kaishen Yuan, Bo Zhao, Yong Xu, Zitong Yu,
- Abstract要約: 本稿では,微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおけるマイクロ圧縮アクションユニット(AU)の検出にLarge Language Modelsを用いた新しいフレームワークであるtextbfAU-LLMを紹介する。
EFPはMulti-Layer Perceptron(MLP)を用いて、特殊な3D-CNNバックボーンからの中間レベル(局所的なテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報密度トークンにインテリジェントに融合する。
- 参考スコア(独自算出の注目度): 26.058143518505805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The detection of micro-expression Action Units (AUs) is a formidable challenge in affective computing, pivotal for decoding subtle, involuntary human emotions. While Large Language Models (LLMs) demonstrate profound reasoning abilities, their application to the fine-grained, low-intensity domain of micro-expression AU detection remains unexplored. This paper pioneers this direction by introducing \textbf{AU-LLM}, a novel framework that for the first time uses LLM to detect AUs in micro-expression datasets with subtle intensities and the scarcity of data. We specifically address the critical vision-language semantic gap, the \textbf{Enhanced Fusion Projector (EFP)}. The EFP employs a Multi-Layer Perceptron (MLP) to intelligently fuse mid-level (local texture) and high-level (global semantics) visual features from a specialized 3D-CNN backbone into a single, information-dense token. This compact representation effectively empowers the LLM to perform nuanced reasoning over subtle facial muscle movements.Through extensive evaluations on the benchmark CASME II and SAMM datasets, including stringent Leave-One-Subject-Out (LOSO) and cross-domain protocols, AU-LLM establishes a new state-of-the-art, validating the significant potential and robustness of LLM-based reasoning for micro-expression analysis. The codes are available at https://github.com/ZS-liu-JLU/AU-LLMs.
- Abstract(参考訳): AU(Micro-Expression Action Units)の検出は、微妙で不随意的な人間の感情を復号する上で重要な、感情的コンピューティングにおける重大な課題である。
大規模言語モデル(LLM)は、深い推論能力を示すが、マイクロ圧縮AU検出の細粒度で低強度領域への応用は未解明のままである。
本稿では, 微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおいて, LLM を用いて AU を検出する新しいフレームワークである \textbf{AU-LLM} を導入することにより, この方向を開拓する。
具体的には、重要な視覚言語間セマンティックギャップである \textbf{Enhanced Fusion Projector (EFP) に対処する。
EFPは、Multi-Layer Perceptron(MLP)を使用して、特殊な3D-CNNバックボーンから、中レベル(ローカルなテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報センストークンにインテリジェントに融合する。
このコンパクトな表現は, LLMが微妙な顔面筋運動に対するニュアンス推論を効果的に行うことを可能にし, CASME II と SAMM のデータセットに対して, 厳密なLeave-One-Subject-Out (LOSO) やクロスドメインプロトコルを含む広範な評価を行った結果, AU-LLM は新たな最先端技術を確立し, LLM に基づくマイクロ圧縮解析の有意な可能性とロバスト性を検証した。
コードはhttps://github.com/ZS-liu-JLU/AU-LLMsで入手できる。
関連論文リスト
- Assessing the feasibility of Large Language Models for detecting micro-behaviors in team interactions during space missions [3.489421154004978]
本研究では,宇宙飛行中に収集したテキストを用いて,チーム会話における微小行動の微妙な表現を検出するための大規模言語モデル(LLM)の実現可能性について検討する。
具体的には、エンコーダのみのシーケンス分類LLMとデコーダのみの因果言語モデリングLLMを用いた少数ショットテキスト生成を用いて、ゼロショット分類、微調整、パラフレーズ拡張細調整について検討する。
以上の結果から,RoBERTa や DistilBERT などのエンコーダのみの LLM は,微調整を重み付けしても,低表現のマイクロ行動,特に抑止音声の検出に苦慮していたことが示唆された。
論文 参考訳(メタデータ) (2025-06-27T23:06:24Z) - MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception [47.80768014770871]
マイクロ圧縮大言語モデル(MELLM)を提案する。
MLLMの強い推論能力を備えた微妙な顔の動き知覚戦略を取り入れている。
我々のモデルは、マイクロ圧縮理解(MEU)において優れた堅牢性と一般化能力を示す。
論文 参考訳(メタデータ) (2025-05-11T15:08:23Z) - MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-05-04T06:58:21Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector [32.15773300068426]
既存の手法では、様々な高度なMIAスコア関数を設計し、高い検出性能を実現している。
より正確な事前学習データ検出器としてLLM自体を指示する命令ベースのMIA手法であるMIA-Tunerを提案する。
既存の手法とMIA-Tunerによってもたらされるプライバシーリスクを軽減すべく、2つの命令ベースのセーフガードを設計する。
論文 参考訳(メタデータ) (2024-08-16T11:09:56Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。