論文の概要: MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
- arxiv url: http://arxiv.org/abs/2502.00698v1
- Date: Sun, 02 Feb 2025 07:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:29.896475
- Title: MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
- Title(参考訳): MM-IQ:マルチモーダルモデルにおけるヒューマンライクな抽象化と推論のベンチマーク
- Authors: Huanqia Cai, Yijun Yang, Winston Hu,
- Abstract要約: MM-IQは、8つの異なる推論パラダイムにまたがる2,710個の精巧にキュレートされたテスト項目からなる総合的な評価フレームワークである。
最先端のアーキテクチャでさえ、ランダムなチャンスに対してわずかに優れたパフォーマンスしか達成できません。
この性能は、基本的な人間の推論能力の近似において、現在のマルチモーダルシステムの不十分さを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 5.02953506943752
- License:
- Abstract: IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive dimensions in multimodal systems. To address this critical gap, we propose MM-IQ, a comprehensive evaluation framework comprising 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of leading open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (27.49% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal systems in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide.
- Abstract(参考訳): IQテストは、人間の認知能力を評価するための基礎的方法論として機能し、言語的背景からのアセスメントを意図的に分離したり、言語習熟度やドメイン固有の知識を抽象化と推論においてコア能力の分離に役立ててきた。
しかし、人工知能の研究は、マルチモーダルシステムにおけるこれらの重要な認知次元を定量化するための体系的なベンチマークを欠いている。
この重要なギャップに対処するために,8つの異なる推論パラダイムにまたがる2,710個の精巧にキュレートされたテスト項目からなる総合的な評価フレームワークMM-IQを提案する。
我々のベンチマークは、主要なオープンソースおよびプロプライエタリなマルチモーダルモデルの体系的な評価を通じて、顕著な制限を明らかにしている: 最先端アーキテクチャでさえ、ランダムな確率(27.49%対25%のベースライン精度)に対してわずかに優れたパフォーマンスしか達成していない。
この実質的なパフォーマンスのカオスは、基本的な人間の推論能力の近似における現在のマルチモーダルシステムの不十分さを強調し、この認知的分割を橋渡しするためのパラダイムシフトの進歩の必要性を強調している。
関連論文リスト
- SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.04298386571692]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Evaluating and Advancing Multimodal Large Language Models in Ability Lens [30.083110119139793]
textbfAbilityLensは、6つの重要な知覚能力にまたがるMLLMを評価するために設計された統一ベンチマークである。
現在のモデルの長所と短所を特定し、安定性のパターンを強調し、オープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにします。
また、早期訓練段階から最高の能力チェックポイントを組み合わせ、能力衝突による性能低下を効果的に軽減する、簡易な能力特異的モデルマージ手法を設計する。
論文 参考訳(メタデータ) (2024-11-22T04:41:20Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Interventional Imbalanced Multi-Modal Representation Learning via $β$-Generalization Front-Door Criterion [17.702549833449435]
マルチモーダル法はユニモーダル法よりも包括的な優越性を確立する。
タスク依存予測に対する異なるモダリティの不均衡な寄与は、正準多モード法の識別性能を常に低下させる。
ベンチマークメソッドは、トレーニング中にわずかな貢献で補助的なモダリティを増大させるという、トラクタブルなソリューションを提起する。
論文 参考訳(メタデータ) (2024-06-17T12:55:56Z) - Evaluating the Performance of Large Language Models via Debates [43.40134389150456]
大規模言語モデル(LLM)は急速に進化し、様々な分野に影響を与えています。
パフォーマンス評価の現在のほとんどのアプローチは、固定されたドメイン固有の質問に基づいているか、あるいは人間の入力に依存している。
本稿では,LLM間の議論に基づく自動ベンチマークフレームワークを提案する。
この方法は、ドメイン知識だけでなく、議論的推論や矛盾認識といったスキルも評価する。
論文 参考訳(メタデータ) (2024-06-16T19:02:31Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。