Fugu-MT 論文翻訳(概要): Face-Human-Bench: A Comprehensive Benchmark of Face and Human Understanding for Multi-modal Assistants

論文の概要: Face-Human-Bench: A Comprehensive Benchmark of Face and Human Understanding for Multi-modal Assistants

arxiv url: http://arxiv.org/abs/2501.01243v2
Date: Sun, 05 Jan 2025 08:42:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 12:46:04.962978
Title: Face-Human-Bench: A Comprehensive Benchmark of Face and Human Understanding for Multi-modal Assistants
Title（参考訳）: Face-Human-Bench:マルチモーダルアシスタントのための顔と人間の理解の総合ベンチマーク
Authors: Lixiong Qin, Shilong Ou, Miaoxuan Zhang, Jiangning Wei, Yuhang Zhang, Xiaoshuai Song, Yuchen Liu, Mei Wang, Weiran Xu,
Abstract要約: 本稿では,3段階の能力を含む階層型能力分類法を提案する。新しいベンチマークの問題を発生させるために、セミオートマチックなデータパイプラインを構築します。メインストリームのマルチモーダル大言語モデル(MLLM)について,Face-Human-Benchを用いて評価を行った。
参考スコア（独自算出の注目度）: 21.75024442217529
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Faces and humans are crucial elements in social interaction and are widely included in everyday photos and videos. Therefore, a deep understanding of faces and humans will enable multi-modal assistants to achieve improved response quality and broadened application scope. Currently, the multi-modal assistant community lacks a comprehensive and scientific evaluation of face and human understanding abilities. In this paper, we first propose a hierarchical ability taxonomy that includes three levels of abilities. Then, based on this taxonomy, we collect images and annotations from publicly available datasets in the face and human community and build a semi-automatic data pipeline to produce problems for the new benchmark. Finally, the obtained Face-Human-Bench comprises a development set with 900 problems and a test set with 1800 problems, supporting both English and Chinese. We conduct evaluations over 25 mainstream multi-modal large language models (MLLMs) with our Face-Human-Bench, focusing on the correlation between abilities, the impact of the relative position of targets on performance, and the impact of Chain of Thought (CoT) prompting on performance. Moreover, inspired by multi-modal agents, we also explore which abilities of MLLMs need to be supplemented by specialist models.
Abstract（参考訳）: 顔と人間は社会的相互作用において重要な要素であり、日常の写真やビデオに広く含まれている。したがって、顔と人間の深い理解により、マルチモーダルアシスタントは、応答品質の向上と適用範囲の拡大を実現することができる。現在、マルチモーダルアシスタントコミュニティは、顔と人間の理解能力に関する包括的で科学的評価を欠いている。本稿ではまず,3段階の能力を含む階層型能力分類法を提案する。そして、この分類に基づいて、顔と人間のコミュニティで公開されているデータセットから画像とアノテーションを収集し、半自動データパイプラインを構築して、新しいベンチマークの問題を発生させる。最後に、得られたFace-Human-Benchは900個の問題を持つ開発セットと1800個の問題を持つテストセットからなり、英語と中国語の両方をサポートする。我々は,フェース・ヒューマン・ベンチによる25の主流マルチモーダル大言語モデル (MLLM) の評価を行い,能力の相関,目標の相対的位置がパフォーマンスに与える影響,および性能に影響を及ぼす思考の連鎖 (CoT) の影響に着目した。さらに,マルチモーダルエージェントにインスパイアされたMLLMの能力についても検討した。

関連論文リスト

Pixels, Patterns, but No Poetry: To See The World like Humans [33.773551676022514]
最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。この論文は、推論から知覚へと焦点を移す。
論文参考訳（メタデータ） (2025-07-21T21:50:16Z)
HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
MANBench: Is Your Multimodal Model Smarter than Human? [7.483339020254684]
9つのタスクにわたる1,314の質問からなるバイリンガル・ベンチマーク(英語と中国語)であるMANBenchを紹介する。我々は、最先端のマルチモーダル言語モデル(MLLM)と比較した。その結果、MLLMは知識やテキストイメージ理解といったタスクに優れていますが、より深いモーダルな推論タスクでは苦労しています。 MANBenchは、MLLMと人間のマルチモーダル能力のギャップを埋める努力を刺激することを期待している。
論文参考訳（メタデータ） (2025-06-04T08:42:14Z)
FaceInsight: A Multimodal Large Language Model for Face Perception [69.06084304620026]
本研究では,顔の詳細な情報を提供する多目的顔認識大言語モデル (MLLM) を提案する。本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化するために, 顔知識の視覚的・テキスト的アライメントを導入する。 3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはMLLMと比較した9つの性能を一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-04-22T06:31:57Z)
Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning [5.178801281905521]
顔認識や属性認識を含む,顔中心のテキスト内学習のための大規模言語モデルFace-LLaVAを提案する。まず,顔処理のためのMLLMを指導する顔中心データベースFaceInstruct-1Mを開発した。そこで我々は,Face-Region Guided Cross-Attentionを応用した新しいビジュアルエンコーダを開発した。
論文参考訳（メタデータ） (2025-04-09T18:26:07Z)
HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。 HumanVBenchは、17の慎重に設計されたタスクで構成されており、内的感情と外的表現、静的、動的、基本的、複雑にまたがる、シングルモーダルとクロスモーダルという2つの主要な側面を探索する。
論文参考訳（メタデータ） (2024-12-23T13:45:56Z)
Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文参考訳（メタデータ） (2024-12-03T03:59:03Z)
HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-11-05T12:14:57Z)
VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文参考訳（メタデータ） (2024-10-17T15:27:17Z)
SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。 SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文参考訳（メタデータ） (2024-02-20T14:02:45Z)
Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。 2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。 Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2023-12-04T07:36:04Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。