論文の概要: HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
- arxiv url: http://arxiv.org/abs/2505.11454v3
- Date: Fri, 01 Aug 2025 02:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 14:06:53.393819
- Title: HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
- Title(参考訳): HumaniBench: 大規模マルチモーダルモデル評価のための人間中心フレームワーク
- Authors: Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は視覚的質問応答(VQA)、画像キャプション、接地といったタスクで広くテストされてきた。
HumaniBenchは、32,000の現実世界の画像検索ペアと評価スイートの新しいベンチマークである。
HumaniBenchは、公正性、倫理、共感、傾倒性、推論、堅牢性、多言語性という7つの主要なアライメント原則にまたがるLMMを評価する。
- 参考スコア(独自算出の注目度): 38.614841553065766
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large multimodal models (LMMs) have been widely tested on tasks like visual question answering (VQA), image captioning, and grounding, but lack rigorous evaluation for alignment with human-centered (HC) values such as fairness, ethics, and inclusivity. To address this gap, we introduce \textbf{HumaniBench}, a novel benchmark of 32,000 real-world image-question pairs and an evaluation suite. Labels are generated via an AI-assisted pipeline and validated by experts. HumaniBench assesses LMMs across seven key alignment principles: fairness, ethics, empathy, inclusivity, reasoning, robustness, and multilinguality, through diverse open-ended and closed-ended VQA tasks. Grounded in AI ethics and real-world needs, these principles provide a holistic lens for societal impact. Benchmarking results on different LMM shows that proprietary models generally lead in reasoning, fairness, and multilinguality, while open-source models excel in robustness and grounding. Most models struggle to balance accuracy with ethical and inclusive behavior. Techniques like Chain-of-Thought prompting and test-time scaling improve alignment. As the first benchmark tailored for HC alignment, HumaniBench offers a rigorous testbed to diagnose limitations, and promote responsible LMM development. All data and code are publicly available for reproducibility. Keywords: HumaniBench, vision-language models, responsible AI benchmark, AI alignment evaluation, AI ethics assessment, fairness in AI models, visual question answering (VQA) benchmark, image captioning evaluation, visual grounding tasks, trustworthy AI models, Chain-of-Thought prompting, test-time scaling, ethical AI development tools.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、視覚的質問応答(VQA)、画像キャプション(英語版)、グラウンド化(英語版)といったタスクで広くテストされてきたが、公平性、倫理、傾きといった人間中心の(HC)値との整合性に対する厳密な評価は欠如している。
このギャップに対処するために,32,000の実世界の画像検索ペアと評価スイートからなる新しいベンチマークである \textbf{HumaniBench} を紹介する。
ラベルはAI支援パイプラインを通じて生成され、専門家によって検証される。
HumaniBenchは、オープンエンドとクローズドエンドのVQAタスクを通じて、公正性、倫理、共感、傾倒、推論、堅牢性、多言語性という7つの主要なアライメント原理のLMMを評価する。
AI倫理と現実世界のニーズに基づいて、これらの原則は社会的影響の全体像を提供する。
異なるLMM上でのベンチマーク結果から、プロプライエタリなモデルは一般的に推論、公平性、多言語性につながるが、オープンソースモデルは堅牢性と接地性が優れている。
ほとんどのモデルは、倫理的および包括的行動と正確さのバランスをとるのに苦労している。
Chain-of-Thoughtのプロンプトやテストタイムのスケーリングといったテクニックはアライメントを改善します。
HCアライメントに適した最初のベンチマークとして、HumaniBenchは制限を診断し、責任あるLMM開発を促進するための厳密なテストベッドを提供する。
すべてのデータとコードは、再現性のために公開されています。
キーワード: HumaniBench、ビジョン言語モデル、AIベンチマーク、AIアライメント評価、AI倫理評価、AIモデルの公正性、視覚的質問応答(VQA)ベンチマーク、画像キャプション評価、ビジュアルグラウンドタスク、信頼できるAIモデル、Chain-of-Thoughtプロンプト、テストタイムスケーリング、倫理的AI開発ツール。
関連論文リスト
- Measuring AI Alignment with Human Flourishing [0.0]
本稿では,人間の繁栄とAIの整合性を評価する新しい評価フレームワークであるFlourishing AI Benchmark(FAI Benchmark)を紹介する。
ベンチマークは、モデルが7次元にわたる人の繁栄にいかに効果的に寄与するかをAIのパフォーマンスを測定する。
この研究は、単に害を避けるのではなく、人間の繁栄を積極的に支援するAIシステムを開発するための枠組みを確立する。
論文 参考訳(メタデータ) (2025-07-10T14:09:53Z) - Perceptual Quality Assessment for Embodied AI [66.96928199019129]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。
具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文 参考訳(メタデータ) (2025-05-22T15:51:07Z) - Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。
両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。
マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文 参考訳(メタデータ) (2025-05-16T11:41:19Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.7206754497888035]
本稿では,人工知能における常識を評価する新しい手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Turing Representational Similarity Analysis (RSA): A Flexible Method for Measuring Alignment Between Human and Artificial Intelligence [0.62914438169038]
我々は,AIと人間間のアライメントを定量化するために,ペアの類似度評価を用いたチューリング表現類似度分析(RSA)を開発した。
我々は,テキストと画像のモダリティ間のセマンティックアライメント(セマンティックアライメント)を検証し,Large Language and Vision Language Model(LLM, VLM)の類似性判断が,グループレベルでも個人レベルでも人間の反応とどのように一致しているかを測定した。
論文 参考訳(メタデータ) (2024-11-30T20:24:52Z) - HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。
各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。
トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - Quality Assessment for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-12-04T07:36:04Z) - Who's Thinking? A Push for Human-Centered Evaluation of LLMs using the
XAI Playbook [30.985555463848264]
我々は、XAIの比較的成熟した分野と、大規模言語モデルを中心とした急速に発展する研究ブームの類似性を引き出す。
我々は、デプロイされた大規模言語モデルを評価する際に、人間の傾向は前後に休むべきだと論じる。
論文 参考訳(メタデータ) (2023-03-10T22:15:49Z) - HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2023-03-10T02:57:07Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。