論文の概要: HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
- arxiv url: http://arxiv.org/abs/2505.11454v5
- Date: Sun, 09 Nov 2025 23:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:55:59.930634
- Title: HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
- Title(参考訳): HumaniBench: 大規模マルチモーダルモデル評価のための人間中心フレームワーク
- Authors: Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は視覚的質問応答(VQA)、画像キャプション、視覚的接地といった視覚的タスクにおいて顕著な性能を達成している。
HumaniBenchは、32,000の現実世界の画像検索ペアと、それに伴う評価スイートで構成されるベンチマークである。
公平性、倫理性、共感性、傾倒性、推論性、堅牢性、多言語性という7つの主要なアライメント原理にまたがるLMMを評価する。
- 参考スコア(独自算出の注目度): 44.973773675725674
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large multimodal models (LMMs) have achieved impressive performance on vision-language tasks such as visual question answering (VQA), image captioning, and visual grounding; however, they remain insufficiently evaluated for alignment with human-centered (HC) values such as fairness, ethics, and inclusivity. To address this gap, we introduce HumaniBench, a comprehensive benchmark comprising 32,000 real-world image-question pairs and an accompanying evaluation suite. Using a semi-automated annotation pipeline, each sample is rigorously validated by domain experts to ensure accuracy and ethical integrity. HumaniBench assesses LMMs across seven key alignment principles: fairness, ethics, empathy, inclusivity, reasoning, robustness, and multilinguality through a diverse set of open- and closed-ended VQA tasks. Grounded in AI ethics theory and real-world social contexts, these principles provide a holistic lens for examining human-aligned behavior. Benchmarking results reveal distinct behavioral patterns: certain model families excel in reasoning, fairness, and multilinguality, while others demonstrate greater robustness and grounding capability. However, most models still struggle to balance task accuracy with ethical and inclusive responses. Techniques such as chain-of-thought prompting and test-time scaling yield measurable alignment gains. As the first benchmark explicitly designed for HC evaluation, HumaniBench offers a rigorous testbed to diagnose limitations, quantify alignment trade-offs, and promote the responsible development of large multimodal models. All data and code are publicly released to ensure transparency and reproducibility. https://vectorinstitute.github.io/HumaniBench/
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、視覚的質問応答(VQA)、画像キャプション(英語版)、視覚的グラウンドリング(英語版)などの視覚言語タスクにおいて印象的な性能を達成しているが、公平さ、倫理、傾きといった人間中心(HC)の値と整合する上では不十分である。
このギャップに対処するために、32,000の実世界の画像検索ペアとそれに伴う評価スイートからなる総合的なベンチマークであるHumaniBenchを紹介する。
半自動アノテーションパイプラインを使用して、各サンプルは、正確性と倫理的整合性を保証するために、ドメインの専門家によって厳格に検証される。
HumaniBenchは、公正性、倫理、共感、傾倒、推論、堅牢性、多言語性という7つの主要なアライメントの原則を、様々なオープンおよびクローズドなVQAタスクを通じて評価する。
AI倫理理論と現実世界の社会的文脈を基礎として、これらの原則は人間の協調行動を調べるための全体論的レンズを提供する。
あるモデルファミリーは推論、公平性、多言語性に優れており、他のモデルはより堅牢で基礎的な能力を示している。
しかしながら、ほとんどのモデルは、タスクの正確さと倫理的および包括的応答のバランスを取るのに苦慮している。
チェーン・オブ・ソート・プロンプトやテストタイムのスケーリングといった手法は、測定可能なアライメントゲインをもたらす。
HC評価のために明示的に設計された最初のベンチマークとして、HumaniBenchは、制限の診断、アライメントトレードオフの定量化、そして大規模なマルチモーダルモデルの責任ある開発を促進するための厳密なテストベッドを提供する。
すべてのデータとコードは公開され、透明性と再現性を保証する。
https://vectorinstitute.github.io/HumaniBench/
関連論文リスト
- Measuring AI Alignment with Human Flourishing [0.0]
本稿では,人間の繁栄とAIの整合性を評価する新しい評価フレームワークであるFlourishing AI Benchmark(FAI Benchmark)を紹介する。
ベンチマークは、モデルが7次元にわたる人の繁栄にいかに効果的に寄与するかをAIのパフォーマンスを測定する。
この研究は、単に害を避けるのではなく、人間の繁栄を積極的に支援するAIシステムを開発するための枠組みを確立する。
論文 参考訳(メタデータ) (2025-07-10T14:09:53Z) - Perceptual Quality Assessment for Embodied AI [66.96928199019129]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。
具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文 参考訳(メタデータ) (2025-05-22T15:51:07Z) - Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。
両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。
マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文 参考訳(メタデータ) (2025-05-16T11:41:19Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.7206754497888035]
本稿では,人工知能における常識を評価する新しい手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Turing Representational Similarity Analysis (RSA): A Flexible Method for Measuring Alignment Between Human and Artificial Intelligence [0.62914438169038]
我々は,AIと人間間のアライメントを定量化するために,ペアの類似度評価を用いたチューリング表現類似度分析(RSA)を開発した。
我々は,テキストと画像のモダリティ間のセマンティックアライメント(セマンティックアライメント)を検証し,Large Language and Vision Language Model(LLM, VLM)の類似性判断が,グループレベルでも個人レベルでも人間の反応とどのように一致しているかを測定した。
論文 参考訳(メタデータ) (2024-11-30T20:24:52Z) - HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。
各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。
トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - Quality Assessment for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-12-04T07:36:04Z) - Who's Thinking? A Push for Human-Centered Evaluation of LLMs using the
XAI Playbook [30.985555463848264]
我々は、XAIの比較的成熟した分野と、大規模言語モデルを中心とした急速に発展する研究ブームの類似性を引き出す。
我々は、デプロイされた大規模言語モデルを評価する際に、人間の傾向は前後に休むべきだと論じる。
論文 参考訳(メタデータ) (2023-03-10T22:15:49Z) - HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2023-03-10T02:57:07Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。