論文の概要: Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs
- arxiv url: http://arxiv.org/abs/2603.20209v3
- Date: Wed, 01 Apr 2026 09:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.886666
- Title: Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs
- Title(参考訳): MLLMに対する子どもの知能テスト : KidGym : MLLMのための2次元グリッドベース推論ベンチマーク
- Authors: Hengwei Ye, Yuanting Guan, Yuxuan Ge, Tianying Zhu, Zhenhan Guan, Yijia Zhong, Yijing Zhang, Han Zhang, Yingna Wu, Zheng Tian,
- Abstract要約: MLLM(Multimodal Large Language Models)は、LLMの言語的強みとマルチモーダルデータの処理能力を組み合わせた言語モデルである。
MLLMの5つの重要な機能を評価するための総合的な2DグリッドベースのベンチマークであるKidGymを紹介する。
- 参考スコア(独自算出の注目度): 7.299886183446607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) combine the linguistic strengths of LLMs with the ability to process multimodal data, enbaling them to address a broader range of visual tasks. Because MLLMs aim at more general, human-like competence than language-only models, we take inspiration from the Wechsler Intelligence Scales - an established battery for evaluating children by decomposing intelligence into interpretable, testable abilities. We introduce KidGym, a comprehensive 2D grid-based benchmark for assessing five essential capabilities of MLLMs: Execution, Perception Reasoning, Learning, Memory and Planning. The benchmark comprises 12 unique tasks, each targeting at least one core capability, specifically designed to guage MLLMs' adaptability and developmental potential, mirroring the stages of children's cognitive growth. Additionally, our tasks encompass diverse scenarios and objects with randomly generated layouts, ensuring a more accurate and robust evluation of MLLM capabilities. KidGym is designed to be fully user-customizable and extensible, allowing researchers to create new evaluation scenarios and adjust difficuly levels to accommodate the rapidly growing MLLM community. Through the evaluation of state-of-the-art MLLMs using KidGym, we identified significant insights into model capabilities and revealed several limitations of current models. We release our benchmark at: https://bobo-ye.github.io/KidGym/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、LLMの言語的強みとマルチモーダルデータを処理する能力を組み合わせることで、より広い範囲の視覚的タスクに対処する。
MLLMは言語のみのモデルよりも、より汎用的で人間的な能力を目指しているので、私たちはWechsler Intelligence Scalesからインスピレーションを得ます。
MLLMの5つの重要な機能(実行、知覚推論、学習、記憶、計画)を評価するための総合的な2DグリッドベースのベンチマークであるKidGymを紹介する。
このベンチマークには12のユニークなタスクが含まれており、それぞれが少なくとも1つのコア能力をターゲットにしており、特にMLLMの適応性と発達可能性を高め、子供の認知的成長の段階を反映するように設計されている。
さらに、我々のタスクはランダムに生成されたレイアウトを持つ多様なシナリオやオブジェクトを含み、より正確で堅牢なMLLM機能を実現する。
KidGymは、完全にユーザカスタマイズ可能で拡張可能で、研究者が新しい評価シナリオを作成し、急速に成長するMLLMコミュニティに対応するために、異なるレベルの調整ができるように設計されている。
KidGymを用いた最先端MLLMの評価を通じて、モデル機能に関する重要な洞察を明らかにし、現在のモデルのいくつかの制限を明らかにした。
ベンチマークはhttps://bobo-ye.github.io/KidGym/.com/で公開しています。
関連論文リスト
- EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。