論文の概要: HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
- arxiv url: http://arxiv.org/abs/2505.11454v1
- Date: Fri, 16 May 2025 17:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.682827
- Title: HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
- Title(参考訳): HumaniBench: 大規模マルチモーダルモデル評価のための人間中心フレームワーク
- Authors: Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya,
- Abstract要約: 我々は32Kの実世界の画像質問対の総合的なベンチマークであるHumaniBenchを紹介する。
HumaniBenchは、公正性、倫理、理解、推論、言語の傾き、共感、堅牢性を含む7つのHuman Centered AI(HCAI)の原則を評価している。
- 参考スコア(独自算出の注目度): 38.614841553065766
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large multimodal models (LMMs) now excel on many vision language benchmarks, however, they still struggle with human centered criteria such as fairness, ethics, empathy, and inclusivity, key to aligning with human values. We introduce HumaniBench, a holistic benchmark of 32K real-world image question pairs, annotated via a scalable GPT4o assisted pipeline and exhaustively verified by domain experts. HumaniBench evaluates seven Human Centered AI (HCAI) principles: fairness, ethics, understanding, reasoning, language inclusivity, empathy, and robustness, across seven diverse tasks, including open and closed ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness tests. Benchmarking 15 state of the art LMMs (open and closed source) reveals that proprietary models generally lead, though robustness and visual grounding remain weak points. Some open-source models also struggle to balance accuracy with adherence to human-aligned principles. HumaniBench is the first benchmark purpose built around HCAI principles. It provides a rigorous testbed for diagnosing alignment gaps and guiding LMMs toward behavior that is both accurate and socially responsible. Dataset, annotation prompts, and evaluation code are available at: https://vectorinstitute.github.io/HumaniBench
- Abstract(参考訳): 大規模なマルチモーダルモデル(LMM)は、現在では多くの視覚言語ベンチマークに優れていますが、フェアネス、倫理、共感、傾きといった人間中心の基準に苦慮しています。
我々は、32Kの現実世界の画像質問ペアの総合的なベンチマークであるHumaniBenchを紹介し、スケーラブルなGPT4oアシストパイプラインを通じて注釈付けされ、ドメインの専門家によって徹底的に検証されている。
HumaniBench氏は、オープンでクローズドな視覚的質問応答(VQA)、マルチリンガルなQA、視覚的接地、共感的キャプション、堅牢性テストを含む7つのタスクにおいて、公正性、倫理、理解、推論、言語傾倒、共感、堅牢性という7つの人間中心AI(HCAI)の原則を評価している。
15の最先端のLMM(オープンソースとクローズドソース)をベンチマークすると、プロプライエタリなモデルは一般的には導かれるが、ロバストさと視覚的基盤は弱い点のままである。
オープンソースモデルの中には、正確さと人間に準拠した原則の遵守のバランスをとるのにも苦労するものもある。
HumaniBenchはHCAIの原則に基づいて構築された最初のベンチマークである。
それは、アライメントギャップの診断と、正確で社会的に責任のある行動に向けてLMMを導くための厳格なテストベッドを提供する。
データセット、アノテーションプロンプト、評価コードは以下の通りである。
関連論文リスト
- Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。
両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。
マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文 参考訳(メタデータ) (2025-05-16T11:41:19Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.7206754497888035]
本稿では,人工知能における常識を評価する新しい手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Turing Representational Similarity Analysis (RSA): A Flexible Method for Measuring Alignment Between Human and Artificial Intelligence [0.62914438169038]
我々は,AIと人間間のアライメントを定量化するために,ペアの類似度評価を用いたチューリング表現類似度分析(RSA)を開発した。
我々は,テキストと画像のモダリティ間のセマンティックアライメント(セマンティックアライメント)を検証し,Large Language and Vision Language Model(LLM, VLM)の類似性判断が,グループレベルでも個人レベルでも人間の反応とどのように一致しているかを測定した。
論文 参考訳(メタデータ) (2024-11-30T20:24:52Z) - HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。
各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。
トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-12-04T07:36:04Z) - Who's Thinking? A Push for Human-Centered Evaluation of LLMs using the
XAI Playbook [30.985555463848264]
我々は、XAIの比較的成熟した分野と、大規模言語モデルを中心とした急速に発展する研究ブームの類似性を引き出す。
我々は、デプロイされた大規模言語モデルを評価する際に、人間の傾向は前後に休むべきだと論じる。
論文 参考訳(メタデータ) (2023-03-10T22:15:49Z) - HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2023-03-10T02:57:07Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。