Fugu-MT 論文翻訳(概要): MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

論文の概要: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

arxiv url: http://arxiv.org/abs/2506.15298v1
Date: Wed, 18 Jun 2025 09:29:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.616322
Title: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
Title（参考訳）: MEGC2025: スポット認識と視覚的質問に対するマイクロ圧縮のグランドチャレンジ
Authors: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davision,
Abstract要約: 顔小表情(英: Facial micro-Expression、ME)は、感情を経験するときに自然に発生する顔の不随意運動である。近年、ME認識、スポッティング、生成の領域でかなりの進歩を遂げている。 MEグランドチャレンジ(MEGC)2025では、これら研究の方向性を反映した2つのタスクが導入されている。
参考スコア（独自算出の注目度）: 55.30507585676142
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
Abstract（参考訳）: 顔小表情(英: Facial micro-Expression、ME)は、感情を経験するときに自然に発生する顔の不随意運動である。近年、ME認識、スポッティング、生成の領域でかなりの進歩を遂げている。しかし、スポッティングと認識を個別のタスクとして扱う従来の手法は、特に現実的な環境での長期ビデオの分析において、最適ではない。同時に、マルチモーダルな大規模言語モデル(MLLM)と大規模視覚言語モデル(LVLM)の出現は、強力なマルチモーダル推論機能を通じてME分析を強化するための、有望な新しい道を提供する。 The ME Grand Challenge (MEGC) 2025では、(1)MEスポット認識(ME-STR)、(2)MEスポット認識とその後の認識を統合された逐次パイプラインに統合する、(2)MEビジュアル質問応答(ME-VQA)、(2)MEビジュアル質問応答(ME-VQA)という2つのタスクを導入し、MLLMやLVLMを利用して、MEに関連する多様な質問タイプに対処する。すべての参加するアルゴリズムは、このテストセット上で実行し、その結果をリーダボードに送信する必要がある。詳細はhttps://megc2025.github.ioで確認できる。

関連論文リスト

MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception [47.80768014770871]
マイクロ圧縮大言語モデル(MELLM)を提案する。 MLLMの強い推論能力を備えた微妙な顔の動き知覚戦略を取り入れている。我々のモデルは、マイクロ圧縮理解(MEU)において優れた堅牢性と一般化能力を示す。
論文参考訳（メタデータ） (2025-05-11T15:08:23Z)
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。最先端のMLLMのベンチマークでは、ピーク性能は53%であった。チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文参考訳（メタデータ） (2025-03-17T17:33:10Z)
EmoVerse: Exploring Multimodal Large Language Models for Sentiment and Emotion Understanding [5.3848462080869215]
Emotion Universe (EmoVerse) は、感情や感情に関連する幅広いタスクを扱うためのMLLMである。 EmoVerseは感情状態の根本原因を深く分析することができる。また、Affective Multitask (AMT)データセットについても紹介する。
論文参考訳（メタデータ） (2024-12-11T02:55:00Z)
EMO-LLaMA: Enhancing Facial Emotion Understanding with Instruction Tuning [27.790079451103065]
EMO-LLaMAと呼ばれる新しいMLLMを提案する。これは、事前訓練された顔分析ネットワークからの顔の事前情報を組み込んで、人間の顔情報を強化する。 EMO-LLaMAは、静的および動的FERデータセット間でSOTA互換または競合的な結果を達成する。
論文参考訳（メタデータ） (2024-08-21T08:28:40Z)
MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文参考訳（メタデータ） (2024-07-23T15:05:55Z)
Tell Me Where You Are: Multimodal LLMs Meet Place Recognition [11.421492098416538]
視覚的位置認識(VPR)にマルチモーダル大言語モデル(MLLM)を導入する。我々のキーとなる設計は、視覚に基づく検索を用いて複数の候補を提案し、言語に基づく推論を利用して最終決定のために各候補を慎重に検査することである。 3つのデータセットから得られた結果から,VFMの汎用的視覚特徴とMLLMの推論能力の統合が,すでに有効な位置認識ソリューションを提供していることが示唆された。
論文参考訳（メタデータ） (2024-06-25T12:59:46Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Video-based Facial Micro-Expression Analysis: A Survey of Datasets, Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文参考訳（メタデータ） (2022-01-30T05:14:13Z)
Micro-expression spotting: A new benchmark [74.69928316848866]
マイクロ表現(ME)は、人々が本当の感情を隠そうとしたり、感情を隠そうとするときに起こる、簡潔で不随意の表情である。コンピュータビジョンの分野では、MEの研究はスポッティングと認識という2つの主要なタスクに分けられる。本稿ではSMIC-Eデータベースの拡張,すなわちSMIC-E-Longデータベースを紹介する。
論文参考訳（メタデータ） (2020-07-24T09:18:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。