論文の概要: NextMotionQA: Benchmarking and Judging Human Motion Understanding with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.04773v1
- Date: Wed, 03 Jun 2026 11:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.724947
- Title: NextMotionQA: Benchmarking and Judging Human Motion Understanding with Vision-Language Models
- Title(参考訳): NextMotionQA:視覚言語モデルによる人間の動作理解のベンチマークと判断
- Authors: Yong Cao, Chuqiao Li, Xianghui Xie, Gerard Pons-Moll, Andreas Geiger,
- Abstract要約: NextMotionQAは、専門家検証データセットのビジョン言語モデルを活用する包括的なベンチマークである。
NextMotionQAには、3つの補完的なタスクがある。
従来の単一タスク評価では見えなかった重要な能力ギャップと弱点を明らかにするために,12種類のVLMの評価を行った。
- 参考スコア(独自算出の注目度): 41.84042766842064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation of human motion understanding is fundamental to advancing embodied AI, robotics, and animation. However, existing benchmarks suffer from coarse semantic granularity, undifferentiated difficulty, limited annotation quality, and pervasive answer ambiguity, leaving them unable to diagnose where current models fail. To bridge this gap, we introduce NextMotionQA, a comprehensive benchmark that leverages vision-language models (VLMs) for semi-automated, expert-verified dataset. NextMotionQA features three complementary tasks: multiple-choice question answering, video captioning, and fine-grained error correction. Each task is systematically structured across three core semantic axes and stratified into three task complexity levels. Our extensive evaluation of twelve representative VLMs uncovers critical capability gaps and weakness that remain invisible under conventional, single-task evaluations. In a complementary direction, recent work has begun using VLMs as judges for text-to-motion evaluation; we ask whether they show the same degradation under harder tasks. We find that VLMs align strongly with expert ratings on coarse criteria (Cohen's κ=0.70) but break down on fine-grained, part-level judgment (κ=0.10), validating the paradigm in its strong regime while clarifying its limits.
- Abstract(参考訳): 人間の動作理解の信頼性評価は、インボディードAI、ロボティクス、アニメーションの進歩に不可欠である。
しかし、既存のベンチマークは、粗いセマンティックな粒度、未分化の難しさ、アノテーションの品質の制限、そして広範に答えるあいまいさに悩まされており、現在のモデルが故障した箇所を診断することができない。
このギャップを埋めるために、準自動化された専門家検証データセットに視覚言語モデル(VLM)を活用する包括的なベンチマークであるNextMotionQAを紹介します。
NextMotionQAには、3つの補完的なタスクがある。
各タスクは3つのコアセマンティック軸に体系的に構造化され、3つのタスク複雑性レベルに階層化される。
従来の単一タスク評価では見えなかった重要な機能ギャップと弱点を明らかにするために,12種類のVLMを広範囲に評価した。
相補的な方向性として、最近の研究はVLMをテキスト・トゥ・モーション・アセスメントの判断に用い始めており、それらが難しい作業下で同じ劣化を示すかどうかを問う。
VLMは粗い基準(コーエンのκ=0.70)のエキスパート評価と強く一致しているが、その限界を明確にしながら、その強い体制におけるパラダイムを検証し、きめ細かい部分レベルの判断(κ=0.10)を分解する。
関連論文リスト
- ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning [59.558706734431276]
空間知能の現在の評価は、現代の視覚言語モデル(VLM)設定下で体系的に無効にすることができる。
本稿では,各QAペアが実際の入力の下で応答可能で正しいことを保証するためのベンチマークとプロトコルであるReVSIを紹介する。
論文 参考訳(メタデータ) (2026-04-27T10:45:51Z) - Benchmarking at the Edge of Comprehension [38.43582342860192]
ベンチマークが実現不可能になった場合、AIの進歩を計測する能力が重要になります。
完全人間の理解が不可能な場合でも,モデルを比較するために設計された対戦型フレームワークであるCrytique-Resilient Benchmarkingを提案する。
標準的なベンチマークとは異なり、人間は有界検証として機能し、ローカライズされたクレームにフォーカスする。
論文 参考訳(メタデータ) (2026-02-15T20:51:29Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - CounterVQA: Evaluating and Improving Counterfactual Reasoning in Vision-Language Models for Video Understanding [13.628041236679229]
視覚言語モデル(VLM)は近年,映像理解の大幅な進歩を見せている。
ビデオベースのベンチマークであるCounterVQAを導入する。
本研究は,言語モーダルから対実的推論能力を蒸留することにより,モデルの視覚的対実的推論能力を高めるポストトレーニング手法CFGPTを開発した。
論文 参考訳(メタデータ) (2025-11-25T04:59:55Z) - Q-Doc: Benchmarking Document Image Quality Assessment Capabilities in Multi-modal Large Language Models [19.598563198222035]
本稿では,MLLMの粗度,中度,微粒度レベルでのDIQA能力を体系的に探索するQ-Docを提案する。
MLLMはDIQA能力を有するが,不整合スコア,歪み誤同定,重度誤判断などの限界がみられた。
我々の研究は、MLLMにおけるDIQA能力のベンチマークを提供し、その品質知覚における明らかな欠陥と、拡張のための有望な経路を明らかにする。
論文 参考訳(メタデータ) (2025-11-14T15:41:17Z) - Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。
i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。
この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (2025-04-26T07:48:52Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。