論文の概要: MA-Bench: Towards Fine-grained Micro-Action Understanding
- arxiv url: http://arxiv.org/abs/2603.26586v1
- Date: Fri, 27 Mar 2026 16:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.599698
- Title: MA-Bench: Towards Fine-grained Micro-Action Understanding
- Title(参考訳): MA-Bench: 微細なマイクロアクション理解を目指して
- Authors: Kun Li, Jihao Gu, Fei Wang, Zhiliang Wu, Hehe Fan, Dan Guo,
- Abstract要約: 我々は,1000本のビデオと3層評価アーキテクチャからなるベンチマークMA-Benchを提案する。
MA-Benchは12,000の構造化された質問応答対を含み、認識精度と行動解釈の両方を体系的に評価することができる。
さらに20.5Kビデオに微調整MLLM用のマイクロアクションキャプションを付加した大規模トレーニングコーパスであるMA-Bench-Trainを構築した。
- 参考スコア(独自算出の注目度): 43.272896612886974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of Multimodal Large Language Models (MLLMs), their potential in Micro-Action understanding, a vital role in human emotion analysis, remains unexplored due to the absence of specialized benchmarks. To tackle this issue, we present MA-Bench, a benchmark comprising 1,000 videos and a three-tier evaluation architecture that progressively examines micro-action perception, relational comprehension, and interpretive reasoning. MA-Bench contains 12,000 structured question-answer pairs, enabling systematic assessment of both recognition accuracy and action interpretation. The results of 23 representative MLLMs reveal that there are significant challenges in capturing motion granularity and fine-grained body-part dynamics. To address these challenges, we further construct MA-Bench-Train, a large-scale training corpus with 20.5K videos annotated with structured micro-action captions for fine-tuning MLLMs. The results of Qwen3-VL-8B fine-tuned on MA-Bench-Train show clear performance improvements across micro-action reasoning and explanation tasks. Our work aims to establish a foundation benchmark for advancing MLLMs in understanding subtle micro-action and human-related behaviors. Project Page: https://MA-Bench.github.io
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な発展に伴い、人間の感情分析における重要な役割であるマイクロアクション理解のポテンシャルは、特別なベンチマークが欠如していることから、未解明のままである。
この問題に対処するために,1,000本のビデオと3層評価アーキテクチャからなるベンチマークMA-Benchを提案する。
MA-Benchは12,000の構造化された質問応答対を含み、認識精度と行動解釈の両方を体系的に評価することができる。
23種類のMLLMの結果から,運動の粒度と体部位の微粒化には大きな課題があることが明らかとなった。
これらの課題に対処するため,20.5Kビデオに微調整MLLMのためのマイクロアクションキャプションを付加した大規模トレーニングコーパスであるMA-Bench-Trainを構築した。
MA-Bench-Trainで微調整したQwen3-VL-8Bの結果は、マイクロアクション推論と説明タスクで明らかに改善された。
本研究の目的は,微妙なマイクロアクションや人間関連行動を理解するため,MLLMの進化のための基礎的ベンチマークを確立することである。
Project Page: https://MA-Bench.github.io
関連論文リスト
- Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach [29.502292089901825]
この矛盾は, 既存の評価手法の制約に起因していると論じる。
これらの制約を克服する感情文判断タスクを提案する。
人間の努力を最小限に抑えて感情中心の文を効率的に構築する自動パイプラインを考案する。
論文 参考訳(メタデータ) (2025-09-26T06:30:39Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception [53.00485107136624]
マイクロ・エクスプレッション(ME)は、隠れた感情を示す、簡潔で低強度の顔の動きである。
本稿では,光学フローに基づく感度を微妙な顔の動きと統合する ME Large Language Model (MELLM) を提案する。
MELLMは複数のMEベンチマークで最先端の精度と一般化を実現する。
論文 参考訳(メタデータ) (2025-05-11T15:08:23Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Unveiling the Ignorance of MLLMs: Seeing Clearly, Answering Incorrectly [44.31985939516153]
MLLM(Multimodal Large Language Models)は、マルチモーダルタスクにおいて顕著な性能を示す。
MLLMは、視覚的内容を理解した場合でも、誤った回答をしばしば生成することを示す。
テキストと視覚的プロンプトを精細化し,デコード中の視覚的コンテンツに焦点を当てることを提案する。
論文 参考訳(メタデータ) (2024-06-15T13:58:26Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。