論文の概要: Face-Human-Bench: A Comprehensive Benchmark of Face and Human Understanding for Multi-modal Assistants
- arxiv url: http://arxiv.org/abs/2501.01243v1
- Date: Thu, 02 Jan 2025 13:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:45.425158
- Title: Face-Human-Bench: A Comprehensive Benchmark of Face and Human Understanding for Multi-modal Assistants
- Title(参考訳): Face-Human-Bench:マルチモーダルアシスタントのための顔と人間の理解の総合ベンチマーク
- Authors: Lixiong Qin, Shilong Ou, Miaoxuan Zhang, Jiangning Wei, Yuhang Zhang, Xiaoshuai Song, Yuchen Liu, Mei Wang, Weiran Xu,
- Abstract要約: 本稿では,3段階の能力を含む階層型能力分類法を提案する。
新しいベンチマークの問題を発生させるために、セミオートマチックなデータパイプラインを構築します。
メインストリームのマルチモーダル大言語モデル(MLLM)について,Face-Human-Benchを用いて評価を行った。
- 参考スコア(独自算出の注目度): 21.75024442217529
- License:
- Abstract: Faces and humans are crucial elements in social interaction and are widely included in everyday photos and videos. Therefore, a deep understanding of faces and humans will enable multi-modal assistants to achieve improved response quality and broadened application scope. Currently, the multi-modal assistant community lacks a comprehensive and scientific evaluation of face and human understanding abilities. In this paper, we first propose a hierarchical ability taxonomy that includes three levels of abilities. Then, based on this taxonomy, we collect images and annotations from publicly available datasets in the face and human community and build a semi-automatic data pipeline to produce problems for the new benchmark. Finally, the obtained Face-Human-Bench comprises a development set with 900 problems and a test set with 1800 problems, supporting both English and Chinese. We conduct evaluations over 25 mainstream multi-modal large language models (MLLMs) with our Face-Human-Bench, focusing on the correlation between abilities, the impact of the relative position of targets on performance, and the impact of Chain of Thought (CoT) prompting on performance. Moreover, inspired by multi-modal agents, we also explore which abilities of MLLMs need to be supplemented by specialist models.
- Abstract(参考訳): 顔と人間は社会的相互作用において重要な要素であり、日常の写真やビデオに広く含まれている。
したがって、顔と人間の深い理解により、マルチモーダルアシスタントは、応答品質の向上と適用範囲の拡大を実現することができる。
現在、マルチモーダルアシスタントコミュニティは、顔と人間の理解能力に関する包括的で科学的評価を欠いている。
本稿ではまず,3段階の能力を含む階層型能力分類法を提案する。
そして、この分類に基づいて、顔と人間のコミュニティで公開されているデータセットから画像とアノテーションを収集し、半自動データパイプラインを構築して、新しいベンチマークの問題を発生させる。
最後に、得られたFace-Human-Benchは900個の問題を持つ開発セットと1800個の問題を持つテストセットからなり、英語と中国語の両方をサポートする。
我々は,フェース・ヒューマン・ベンチによる25の主流マルチモーダル大言語モデル (MLLM) の評価を行い,能力の相関,目標の相対的位置がパフォーマンスに与える影響,および性能に影響を及ぼす思考の連鎖 (CoT) の影響に着目した。
さらに,マルチモーダルエージェントにインスパイアされたMLLMの能力についても検討した。
関連論文リスト
- HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。
本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。
実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-05T12:14:57Z) - VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - HERM: Benchmarking and Enhancing Multimodal LLMs for Human-Centric Understanding [68.4046326104724]
本稿では,MLLMの人間中心理解能力を評価するベンチマークであるHERM-Benchを紹介する。
我々の研究は、複雑な人間中心のシナリオを理解する上で、既存のMLLMの限界を明らかにする。
我々は、MLLMのトレーニングを強化することを目的とした、多レベルな人間中心アノテーションを備えた包括的なデータセットHERM-100Kを提案する。
論文 参考訳(メタデータ) (2024-10-09T11:14:07Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。