論文の概要: HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.03922v1
- Date: Wed, 04 Jun 2025 13:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.344934
- Title: HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models
- Title(参考訳): HSSBench:マルチモーダル大規模言語モデルのための人文科学と社会科学のベンチマーク
- Authors: Zhaolu Kang, Junhao Gong, Jiaxu Yan, Wanke Xia, Yian Wang, Ziwen Wang, Huaxuan Ding, Zhuo Cheng, Wenhao Cao, Zhiyuan Feng, Siqi He, Shannan Yan, Junzhe Chen, Xiaomin He, Chaoya Jiang, Wei Ye, Kaidong Yu, Xuelong Li,
- Abstract要約: HSSBenchは、人文科学(HSS)タスクにおけるMLLM(Multimodal Large Language Models)の機能を評価するために設計されたベンチマークである。
HSSBenchには、13,000以上の精巧に設計されたサンプルが含まれており、6つの主要なカテゴリをカバーしている。
我々は、HSSBench上で20以上のメインストリームMLLMをベンチマークし、最先端モデルにおいても大きな課題が生じることを示した。
- 参考スコア(独自算出の注目度): 33.27927049985494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated significant potential to advance a broad range of domains. However, current benchmarks for evaluating MLLMs primarily emphasize general knowledge and vertical step-by-step reasoning typical of STEM disciplines, while overlooking the distinct needs and potential of the Humanities and Social Sciences (HSS). Tasks in the HSS domain require more horizontal, interdisciplinary thinking and a deep integration of knowledge across related fields, which presents unique challenges for MLLMs, particularly in linking abstract concepts with corresponding visual representations. Addressing this gap, we present HSSBench, a dedicated benchmark designed to assess the capabilities of MLLMs on HSS tasks in multiple languages, including the six official languages of the United Nations. We also introduce a novel data generation pipeline tailored for HSS scenarios, in which multiple domain experts and automated agents collaborate to generate and iteratively refine each sample. HSSBench contains over 13,000 meticulously designed samples, covering six key categories. We benchmark more than 20 mainstream MLLMs on HSSBench and demonstrate that it poses significant challenges even for state-of-the-art models. We hope that this benchmark will inspire further research into enhancing the cross-disciplinary reasoning abilities of MLLMs, especially their capacity to internalize and connect knowledge across fields.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、幅広い領域を前進させる大きな可能性を証明している。
しかしながら、MLLMを評価するための現在のベンチマークは、人文科学(HSS)の異なるニーズと可能性を見越しながら、STEM分野の典型的な一般的な一般的な知識と垂直ステップバイステップの推論を強調している。
HSS領域のタスクは、より水平的で学際的な思考と、関連する分野にわたる知識の深い統合を必要とし、特に抽象概念と対応する視覚表現とのリンクにおいて、MLLMの固有の課題を提示する。
このギャップに対処するために、国連の6つの公式言語を含む複数の言語におけるHSSタスクにおけるMLLMの能力を評価するために設計された専用のベンチマークであるHSSBenchを紹介する。
さらに、複数のドメインの専門家と自動化エージェントが協力して各サンプルを生成し、反復的に精査する、新たなデータ生成パイプラインも導入しています。
HSSBenchには、13,000以上の精巧に設計されたサンプルが含まれており、6つの主要なカテゴリをカバーしている。
我々は、HSSBench上で20以上のメインストリームMLLMをベンチマークし、最先端モデルにおいても大きな課題が生じることを示した。
このベンチマークは、MLLMの学際的推論能力、特に分野横断の知識を内部化・接続する能力の強化に関するさらなる研究を促すことを願っている。
関連論文リスト
- SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Multilingual Large Language Models: A Systematic Survey [38.972546467173565]
本稿では,多言語大言語モデル(MLLM)の最新研究を包括的に調査する。
まず,MLLMのアーキテクチャと事前学習の目的について論じ,多言語機能に寄与する重要なコンポーネントや方法論を強調した。
本稿では,MLLMの言語間知識,推論,人的価値との整合性,安全性,解釈可能性,専門的応用に関する詳細な分類とロードマップを示す。
論文 参考訳(メタデータ) (2024-11-17T13:21:26Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。