論文の概要: MHPR: Multidimensional Human Perception and Reasoning Benchmark for Large Vision-Languate Models
- arxiv url: http://arxiv.org/abs/2605.03485v1
- Date: Tue, 05 May 2026 08:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.834651
- Title: MHPR: Multidimensional Human Perception and Reasoning Benchmark for Large Vision-Languate Models
- Title(参考訳): MHPR:大規模視覚言語モデルのための多次元人間の知覚と推論ベンチマーク
- Authors: Kangkang Wang, Qinting Jiang, Wanping Zhang, Bowen Ren, Shengzhao Wen,
- Abstract要約: 我々は、人間中心のシーンに対する共同認識推論のベンチマークであるMHPRを紹介する。
MHPRは、多レベルデータデザイン・キャプションドローデータ(C-RD)、スーパービジョンドファインチューニングデータ(SFT-D)、強化学習データ(RL-D)、テストデータ(T-D)からなる。
細粒度属性とハイレベルセマンティクスに基づいて、最先端の視覚言語モデルを評価する。
- 参考スコア(独自算出の注目度): 2.1348189297234685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multidimensional human understanding is essential for real-world applications such as film analysis and virtual digital humans, yet current LVLM benchmarks largely focus on single-task settings and lack fine-grained, human-centric evaluation. In this work, we introduce MHPR, a comprehensive benchmark for joint perception-reasoning over human-centric scenes spanning individual, multi-person, and human-object interaction dimensions. MHPR comprises a multi-level data design-Captioned Raw Data (C-RD), Supervised Fine-Tuning Data (SFT-D), Reinforcement Learning Data (RL-D), and Test Data (T-D)-together with an automated caption/VQA generation pipeline (ACVG) that performs category-wise attribute decomposition, attribute-specific rewriting, and multi-model voting to ensure high-quality, scalable annotations. We evaluate state-of-the-art vision-language models on fine-grained attributes (appearance, clothing, pose, parts) and high-level semantics (social relations, action semantics, spatial relations, intent and functionality). Our findings show that: 1) format-aligned SFT data substantially improves instruction following and stability; 2) challenge-focused RL data derived from bad-case analysis further enhances perception and reasoning on difficult instances; and 3) training Qwen2.5-VL-7B with MHPR yields significant gains, achieving near-parity with considerably larger models. We release ACVG and MHPR to facilitate reproducible, extensible research on human-centric perception and reasoning.
- Abstract(参考訳): フィルム分析や仮想デジタル人間のような現実世界の応用には多次元の人間の理解が不可欠であるが、現在のLVLMベンチマークは主に単一タスクの設定に焦点を合わせており、細粒度で人中心的な評価を欠いている。
本研究では,個人,複数対人,対物的相互作用の次元にまたがる人間中心シーンに対する共同知覚推論のための総合的ベンチマークであるMHPRを紹介する。
MHPRは、カテゴリワイド属性の分解、属性固有の書き換え、および高品質でスケーラブルなアノテーションを保証するためにマルチモデル投票を行う自動キャプション/VQA生成パイプライン(ACVG)を備えたマルチレベルデータ設計内蔵Raw Data(C-RD)、スーパービジョンファインチューニングデータ(SFT-D)、強化学習データ(RL-D)、テストデータ(T-D)トゲザーを含む。
我々は, 細粒度属性(外観, 衣服, ポーズ, 部品)と高レベルの意味論(社会的関係, 行動意味論, 空間関係, 意図, 機能)に基づいて, 最先端の視覚言語モデルを評価する。
我々の研究結果は以下のとおりである。
1) 書式整列SFTデータは、命令追従及び安定性を大幅に改善する。
2)難解ケース分析から得られた課題中心のRLデータにより、困難な事例に対する認識と推論がさらに強化される。
3) MHPRを用いたQwen2.5-VL-7Bのトレーニングでは, かなり大きなモデルでほぼ同程度に向上した。
ACVGとMHPRを発売し、人間中心の知覚と推論に関する再現性、拡張性のある研究を促進する。
関連論文リスト
- SAM 3D Body: Robust Full-Body Human Mesh Recovery [65.0108906331903]
シングルイメージフルボディ3Dヒューマンメッシュリカバリ(HMR)のためのアクセラブルモデルSAM 3D Body (3DB)を紹介する。
3DBは、身体、足、手の人間のポーズを推定します。
骨格構造と表面形状を分離する新しいパラメトリックメッシュ表現であるMomentum Human Rig(MHR)を使用した最初のモデルである。
論文 参考訳(メタデータ) (2026-02-17T20:26:37Z) - Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale [70.23466957404891]
多様なスキルと複雑さのレベルにまたがる新しい推論データ生成フレームワークを,100万以上の高品質な合成視覚中心の質問で紹介する。
データ上のQwen2.5-VL-7Bの微調整は、すべての評価されたビジョン中心のベンチマークにおいて、すべてのオープンデータベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-07T20:50:54Z) - Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。
Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。
我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文 参考訳(メタデータ) (2025-09-30T12:20:57Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - LLaVA-Pose: Enhancing Human Pose and Action Understanding via Keypoint-Integrated Instruction Tuning [1.820765907065129]
現在の視覚言語モデル(VLM)は、一般的な視覚的理解タスクに適している。
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する手法を提案する。
このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、得られたLLaVA-Poseモデルをベンチマーク上で評価し、大幅な改善を実現した。
論文 参考訳(メタデータ) (2025-06-26T14:32:56Z) - Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models [1.9890559505377343]
現在の視覚言語マルチモーダルモデルは、一般的な視覚的理解タスクに適している。
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する手法を提案する。
このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、ベンチマークで評価し、大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-09-14T05:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。