論文の概要: Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.05531v1
- Date: Thu, 04 Jun 2026 00:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.446878
- Title: Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models
- Title(参考訳): Almieyar-Oryx-BloomBench:視覚言語モデルの認知的インフォームド評価のためのバイリンガルマルチモーダルベンチマーク
- Authors: Mohammad Mahdi Abootorabi, Omid Ghahroodi, Anas Madkoor, Marzia Nouri, Doratossadat Dastgheib, Mohamed Hefeeda, Ehsaneddin Asgari,
- Abstract要約: BloomBenchは、視覚言語モデルのための、認知的に人間的、バイリンガルな(英語-アラビア語)マルチモーダルベンチマークである。
我々は,その認知的プロファイルを診断するために最先端のVLMを研究した。
本研究は、アラビア語と英語における重要なパフォーマンスギャップを浮き彫りにして、現在の言語間多モーダル推論における限界を明らかにするものである。
- 参考スコア(独自算出の注目度): 4.827220845523129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid progress of Vision-Language Models (VLMs), the field lacks benchmarks that rigorously diagnose their true reasoning abilities and chart meaningful progress toward human-like multimodal intelligence. Most existing evaluations focus on piecemeal or disconnected tasks, obscuring critical cognitive weaknesses and providing little insight for targeted improvement. To address this gap, we introduce BloomBench, part of the Almieyar benchmarking series, the first cognitively human-grounded, bilingual (English-Arabic) multimodal benchmark for VLMs. Grounded in Bloom's Taxonomy, BloomBench systematically evaluates six levels of cognition (Remember, Understand, Apply, Analyze, Evaluate, Create) through carefully designed image-question-answer tasks. Built with a semi-automated pipeline and validated through a stratified hybrid quality assurance protocol, it ensures scalability, cultural inclusivity, and linguistic fidelity. Leveraging this framework, we conduct a comprehensive study of state-of-the-art VLMs to diagnose their cognitive profiles. Our analysis reveals a sharp cognitive asymmetry: while state-of-the-art models achieve strong performance ceilings in semantic understanding, they struggle substantially with factual recall and creative synthesis. This demonstrates that current general multimodal proficiency masks deeper limitations in specific cognitive layers. Furthermore, our study highlights a critical performance gap between Arabic and English, exposing limitations in current cross-lingual multimodal reasoning. These findings establish a foundation for developing more cognitively aligned and inclusive VLMs. The benchmark framework and dataset is available at: https://github.com/qcri/Almieyar-Oryx-BloomBench.
- Abstract(参考訳): VLM(Vision-Language Models)の急速な進歩にもかかわらず、この分野は、真の推論能力の厳格な診断と、人間のようなマルチモーダルインテリジェンスへの有意義な進歩を示すベンチマークを欠いている。
既存の評価のほとんどは、断片的または非連結的なタスクに焦点を当て、批判的な認知の弱点を隠蔽し、目標とする改善の洞察をほとんど与えない。
このギャップに対処するため、VLMのための最初の認知的人間によるバイリンガル(英語-アラビア語)マルチモーダルベンチマークであるAlmieyarベンチマークシリーズの一部であるBloomBenchを紹介した。
ブルームベンチはブルームの分類学に基づいて、6段階の認知(記憶、理解、応用、分析、評価、創造)を慎重にデザインされた画像検索タスクを通して体系的に評価している。
半自動パイプラインで構築され、階層化されたハイブリッド品質保証プロトコルを通じて検証される。
この枠組みを活用することで、認知的プロファイルを診断するために最先端のVLMを包括的に研究する。
我々の分析は、最先端のモデルが意味理解において強いパフォーマンス天井を達成する一方で、事実のリコールや創造的な合成にかなり苦労している、という鋭い認知的非対称性を明らかにしている。
これは、現在の一般的なマルチモーダル習熟度マスクが特定の認知層のより深い制限を覆っていることを示している。
さらに,アラビア語と英語の間には重要なパフォーマンスギャップがあり,言語間多モーダル推論の限界が明らかになっている。
これらの知見は、より認知的に整合し包括的VLMを開発するための基盤を確立する。
ベンチマークフレームワークとデータセットは、https://github.com/qcri/Almieyar-Oryx-BloomBench.comで公開されている。
関連論文リスト
- Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models [0.0]
ビジュアル言語モデル(VLM)は強力な生成ツールであるが、しばしば事実的に正確な出力を生成する。
本研究は、知識誘導推論のためのフレームワークをVLMで導入し、マルチホップ検証に構造化知識グラフを活用する。
本研究では,階層的・三点的・三点的・三点的・三点的知識表現を用いた枠組みの評価を行い,実効性と論理的推論性について分析した。
論文 参考訳(メタデータ) (2025-11-25T17:34:32Z) - Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。