論文の概要: HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes
- arxiv url: http://arxiv.org/abs/2508.13692v1
- Date: Tue, 19 Aug 2025 09:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.881962
- Title: HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes
- Title(参考訳): HumanPCR: 異種ヒトシーンにおけるMLLM機能の調査
- Authors: Keliang Li, Hongze Shen, Hao Shi, Ruibing Hou, Hong Chang, Jie Huang, Chenghao Jia, Wen Wang, Yiling Wu, Dongmei Jiang, Shiguang Shan, Xilin Chen,
- Abstract要約: HumanPCRは、人間の視覚的コンテキストに関するMLLMの能力を調べるための評価スイートである。
Human-P、HumanThought-C、Human-Rは、6,000以上の人間認証された複数の選択質問を特徴としている。
Human-Rは、手動でキュレートされたビデオ推論テストを提供する。
- 参考スコア(独自算出の注目度): 72.26829188852139
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The aspiration for artificial general intelligence, fueled by the rapid progress of multimodal models, demands human-comparable performance across diverse environments. We propose HumanPCR, an evaluation suite for probing MLLMs' capacity about human-related visual contexts across three hierarchical levels: Perception, Comprehension, and Reasoning (denoted by Human-P, Human-C, and Human-R, respectively). Human-P and Human-C feature over 6,000 human-verified multiple choice questions, assessing massive tasks of 9 dimensions, including but not limited to essential skills frequently overlooked by existing benchmarks. Human-R offers a challenging manually curated video reasoning test that requires integrating multiple visual evidences, proactively extracting context beyond question cues, and applying human-like expertise. Each question includes human-annotated Chain-of-Thought (CoT) rationales with key visual evidence to support further research. Extensive evaluations on over 30 state-of-the-art models exhibit significant challenges in human-centric visual understanding, particularly in tasks involving detailed space perception, temporal understanding, and mind modeling. Moreover, analysis of Human-R reveals the struggle of models in extracting essential proactive visual evidence from diverse human scenes and their faulty reliance on query-guided retrieval. Even with advanced techniques like scaling visual contexts and test-time thinking yield only limited benefits. We hope HumanPCR and our findings will advance the development, evaluation, and human-centric application of multimodal models.
- Abstract(参考訳): 人工知能への願望は、マルチモーダルモデルの急速な進歩に支えられ、多様な環境にまたがって人間に相応しい性能を要求する。
我々は,MLLMの認知,理解,推論(Human-P,Human-C,Human-R)という3つの階層レベルの視覚的コンテキストに関する能力を評価するための評価スイートであるHumanPCRを提案する。
Human-PとHuman-Cは、6,000以上の人間検証された複数の選択質問を特徴とし、9次元の巨大なタスクを評価する。
Human-Rは、複数の視覚的エビデンスを統合すること、質問の手がかりを超えたコンテキストを積極的に抽出すること、人間のような専門知識を適用することを必要とする、挑戦的な手作業によるビデオ推論テストを提供する。
それぞれの質問には、さらなる研究を支援するための重要な視覚的証拠を備えた人間注釈のチェーン・オブ・ソート(CoT)の合理性が含まれている。
30以上の最先端モデルに対する広範囲な評価は、人間中心の視覚的理解、特に詳細な空間認識、時間的理解、マインドモデリングを含むタスクにおいて重大な課題を示す。
さらに、Human-Rの分析は、多様な人間のシーンから本質的な積極的視覚的証拠を抽出する際のモデルの困難と、クエリ誘導検索への不確実性を明らかにしている。
視覚的コンテキストのスケーリングやテスト時間思考といった高度なテクニックでさえ、メリットは限られています。
我々は、HumanPCRと我々の発見がマルチモーダルモデルの開発、評価、人間中心の応用を促進することを願っている。
関連論文リスト
- Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。
両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。
マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文 参考訳(メタデータ) (2025-05-16T11:41:19Z) - HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding [57.763735969891286]
具体的エージェントに対するヒューマン・イン・シーン・サーチ・アンサーリング(HIS-QA)のためのヒューマン・イン・シーン・理解のベンチマークのための新しいタスクを提案する。
HIS-QAは、エージェントが人間の状態や行動を理解し、周囲の環境を判断し、シーン内の人間関連の質問に答えることを要求する。
広帯域でのHIS理解を体系的に評価するマルチモーダル・ベンチマークであるHIS-Benchを提案する。
論文 参考訳(メタデータ) (2025-03-17T09:10:50Z) - HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。
本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。
実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-05T12:14:57Z) - Human Simulacra: Benchmarking the Personification of Large Language Models [38.21708264569801]
大規模言語モデル(LLM)は、人間の知性の側面を忠実に模倣するシステムとして認識されている。
本稿では,仮想キャラクタのライフストーリーをゼロから構築するためのフレームワークを提案する。
実験により, 構築したシミュラクラは, 対象キャラクタと一致した擬人化応答を生成できることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:11:14Z) - You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。
本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文 参考訳(メタデータ) (2023-12-09T10:36:43Z) - Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-12-04T07:36:04Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。