論文の概要: AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition
- arxiv url: http://arxiv.org/abs/2603.08387v1
- Date: Mon, 09 Mar 2026 13:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.110675
- Title: AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition
- Title(参考訳): AULLM++:マイクロ圧縮認識のための大規模言語モデルによる構造推論
- Authors: Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu,
- Abstract要約: AULLM++は大規模言語モデル(LLM)を活用した推論指向フレームワークである
AU予測をエビデンス構築、構造モデリング、推論に基づく予測の3段階に定式化する。
AULLM++は、標準ベンチマークで最先端のパフォーマンスを実証する。
- 参考スコア(独自算出の注目度): 30.62262381459829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-expression Action Unit (AU) detection identifies localized AUs from subtle facial muscle activations, providing a foundation for decoding affective cues. Previous methods face three key limitations: (1) heavy reliance on low-density visual information, rendering discriminative evidence vulnerable to background noise; (2) coarse-grained feature processing that misaligns with the demand for fine-grained representations; and (3) neglect of inter-AU correlations, restricting the parsing of complex expression patterns. We propose AULLM++, a reasoning-oriented framework leveraging Large Language Models (LLMs), which injects visual features into textual prompts as actionable semantic premises to guide inference. It formulates AU prediction into three stages: evidence construction, structure modeling, and deduction-based prediction. Specifically, a Multi-Granularity Evidence-Enhanced Fusion Projector (MGE-EFP) fuses mid-level texture cues with high-level semantics, distilling them into a compact Content Token (CT). Furthermore, inspired by micro- and macro-expression AU correspondence, we encode AU relationships as a sparse structural prior and learn interaction strengths via a Relation-Aware AU Graph Neural Network (R-AUGNN), producing an Instruction Token (IT). We then fuse CT and IT into a structured textual prompt and introduce Counterfactual Consistency Regularization (CCR) to construct counterfactual samples, enhancing the model's generalization. Extensive experiments demonstrate AULLM++ achieves state-of-the-art performance on standard benchmarks and exhibits superior cross-domain generalization.
- Abstract(参考訳): マイクロ・エクスプレッション・アクション・ユニット(AU)は、微妙な顔面筋の活性化から局所的なAUを識別し、感情的な手がかりを復号するための基盤を提供する。
従来の手法では,(1)低密度の視覚情報への強い依存,(2)背景雑音に弱い識別的証拠のレンダリング,(2)細粒度表現の要求に反する粗粒度特徴処理,(3)複雑な表現パターンのパーシングを制限したAU間相関の無視,の3つの重要な制限に直面していた。
本稿では,Large Language Models (LLMs) を利用した推論指向フレームワーク AULLM++ を提案する。
AU予測をエビデンス構築、構造モデリング、推論に基づく予測の3段階に定式化する。
具体的には、MGE-EFP(Multi-Granularity Evidence-Enhanced Fusion Projector)は、中級テクスチャキューに高レベルの意味論を融合させ、それをCT(Content Token)に蒸留する。
さらに、マイクロ・マクロ圧縮AU対応に着想を得て、AU関係をスパース構造としてエンコードし、R-AUグラフニューラルネットワーク(R-AUGNN)を用いて相互作用強度を学習し、インストラクショントークン(IT)を生成する。
次に、CTとITを構造化されたテキストプロンプトに融合させ、対実一貫性規則化(CCR)を導入して、対実サンプルを構築し、モデルの一般化を強化する。
AULLM++は標準ベンチマークで最先端のパフォーマンスを実現し、クロスドメインの一般化に優れることを示した。
関連論文リスト
- Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - Context-level Language Modeling by Learning Predictive Context Embeddings [79.00607069677393]
textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
論文 参考訳(メタデータ) (2025-10-23T07:09:45Z) - IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation [23.61167100602915]
IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
論文 参考訳(メタデータ) (2025-10-13T03:19:45Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - SLiNT: Structure-aware Language Model with Injection and Contrastive Training for Knowledge Graph Completion [11.686307370683922]
知識グラフにおけるリンク予測は、欠落したエンティティを推測するために構造情報と意味コンテキストを統合する必要がある。
SLiNTは,知識グラフに基づく構造的コンテキストを,ロラをベースとした軽量な適応型フリーズバックボーンに注入し,堅牢なリンク予測を行うモジュールフレームワークである。
WN18RRとFB15k-237の実験により、SLiNTは埋め込みベースとジェネレーションベースの両方と比較して優れた性能または競争性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-08T10:36:49Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion [26.058143518505805]
本稿では,微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおけるマイクロ圧縮アクションユニット(AU)の検出にLarge Language Modelsを用いた新しいフレームワークであるtextbfAU-LLMを紹介する。
EFPはMulti-Layer Perceptron(MLP)を用いて、特殊な3D-CNNバックボーンからの中間レベル(局所的なテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報密度トークンにインテリジェントに融合する。
論文 参考訳(メタデータ) (2025-07-29T13:01:59Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。