論文の概要: MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering
- arxiv url: http://arxiv.org/abs/2603.08927v1
- Date: Mon, 09 Mar 2026 20:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.82427
- Title: MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering
- Title(参考訳): MEGC2026: ビジュアル質問に対するマイクロ圧縮のグランドチャレンジ
- Authors: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. Davison,
- Abstract要約: 顔小表情(英: Facial micro-Expression、ME)は、感情を経験するときに自然に発生する顔の不随意運動である。
MEグランドチャレンジ(MEGC)2026では、これら研究の方向性を反映した2つのタスクが導入されている。
- 参考スコア(独自算出の注目度): 18.891642938076902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. The emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2026 introduces two tasks that reflect these evolving research directions: (1) ME video question answering (ME-VQA), which explores ME understanding through visual question answering on relatively short video sequences, leveraging MLLMs or LVLMs to address diverse question types related to MEs; and (2) ME long-video question answering (ME-LVQA), which extends VQA to long-duration video sequences in realistic settings, requiring models to handle temporal reasoning and subtle micro-expression detection across extended time periods. All participating algorithms are required to submit their results on a public leaderboard. More details are available at https://megc2026.github.io.
- Abstract(参考訳): 顔小表情(英: Facial micro-Expression、ME)は、感情を経験するときに自然に発生する顔の不随意運動である。
近年、ME認識、スポッティング、生成の領域でかなりの進歩を遂げている。
マルチモーダルな大言語モデル(MLLM)と大規模視覚言語モデル(LVLM)の出現は、強力なマルチモーダル推論機能を通じてME分析を強化するための、有望な新しい道を提供する。
Meビデオ質問応答(ME-VQA)は,比較的短いビデオシーケンス上での視覚的質問応答を通じてME理解を探索し,MLLMやLVLMを利用してMEに関連する多様な質問タイプに対処する。
参加するアルゴリズムはすべて、公開のリーダーボードに結果を提出する必要がある。
詳細はhttps://megc2026.github.ioで確認できる。
関連論文リスト
- MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering [54.0963629109064]
顔小表情(英: Facial micro-Expression、ME)は、感情を経験するときに自然に発生する顔の不随意運動である。
近年、ME認識、スポッティング、生成の領域でかなりの進歩を遂げている。
MEグランドチャレンジ(MEGC)2025では、これら研究の方向性を反映した2つのタスクが導入されている。
論文 参考訳(メタデータ) (2025-06-18T09:29:51Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z) - MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。
本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文 参考訳(メタデータ) (2024-07-23T15:05:55Z) - EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model [22.292581935835678]
EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。
また,NFBL(Non-Facial Body Language)アノテーションを各プレイヤーに提供します。
NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。
論文 参考訳(メタデータ) (2024-05-01T15:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。