論文の概要: MirrorBench: Evaluating Self-centric Intelligence in MLLMs by Introducing a Mirror
- arxiv url: http://arxiv.org/abs/2604.14785v1
- Date: Thu, 16 Apr 2026 08:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.810138
- Title: MirrorBench: Evaluating Self-centric Intelligence in MLLMs by Introducing a Mirror
- Title(参考訳): MirrorBench: ミラーの導入によるMLLMの自己中心インテリジェンスの評価
- Authors: Shengyu Guo, Tongrui Ye, Jianbo Zhang, Zicheng Zhang, Chunyi Li, Guangtao Zhai,
- Abstract要約: 心理学における古典的ミラー自己認識(MSR)テストに触発されたシミュレーションベースのベンチマークであるMirrorBenchを紹介する。
MirrorBenchはこのパラダイムを、段階的に困難なタスクの結合されたフレームワークを通じてMLLMを具現化したものに拡張している。
本研究は,心理学的パラダイムとインテリジェンスを橋渡しし,大規模モデルにおける汎用インテリジェンスの出現を評価するための原則的枠組みを提供する。
- 参考スコア(独自算出の注目度): 68.92922229518848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in Multimodal Large Language Models (MLLMs) has demonstrated remarkable advances in perception and reasoning, suggesting their potential for embodied intelligence. While recent studies have evaluated embodied MLLMs in interactive settings, current benchmarks mainly target capabilities to perceive, understand, and interact with external objects, lacking a systematic evaluation of self-centric intelligence. To address this, we introduce MirrorBench, a simulation-based benchmark inspired by the classical Mirror Self-Recognition (MSR) test in psychology. MirrorBench extends this paradigm to embodied MLLMs through a tiered framework of progressively challenging tasks, assessing agents from basic visual perception to high-level self-representation. Experiments on leading MLLMs show that even at the lowest level, their performance remains substantially inferior to human performance, revealing fundamental limitations in self-referential understanding. Our study bridges psychological paradigms and embodied intelligence, offering a principled framework for evaluating the emergence of general intelligence in large models. Project page: https://fflahm.github.io/mirror-bench-page/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、認識と推論の顕著な進歩を示し、その可能性を示唆している。
近年の研究では、MLLMをインタラクティブな環境で評価しているが、現在のベンチマークは主に外部オブジェクトを知覚し、理解し、相互作用する能力をターゲットにしており、自己中心知能の体系的な評価を欠いている。
この問題を解決するために、心理学における古典的ミラー自己認識(MSR)テストにインスパイアされたシミュレーションベースのベンチマークであるMirrorBenchを紹介する。
MirrorBenchはこのパラダイムを、基本的な視覚的知覚からハイレベルな自己表現に至るまでのエージェントを評価する、段階的に困難なタスクの結合されたフレームワークを通じて、MLLMを具現化したものに拡張している。
MLLMをリードする実験では、最低レベルであっても、そのパフォーマンスは人間のパフォーマンスよりも著しく劣っていることが示され、自己参照理解の基本的な限界が明らかとなった。
本研究は,心理学的パラダイムとインテリジェンスを橋渡しし,大規模モデルにおける汎用インテリジェンスの出現を評価するための基本的枠組みを提供する。
プロジェクトページ:https://fflahm.github.io/mirror-bench-page/。
関連論文リスト
- MM-THEBench: Do Reasoning MLLMs Think Reasonably? [45.23711313374087]
MLLMの推論における中間CoTの幻覚評価のための総合的なベンチマークであるMM-theBenchを紹介する。
MM-theBenchは、認知次元を基盤としたきめ細かい分類法、検証された推論アノテーションを備えた多様なデータ、多段階の自動評価フレームワークを備えている。
論文 参考訳(メタデータ) (2026-01-30T09:17:50Z) - 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis [54.24689751375923]
本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。
14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。
これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-27T17:22:34Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis [19.032828729570458]
我々は、人間の視覚知覚における複雑さに関連する心理学と認知科学の確立した原理と説明を用いる。
本研究の目的は、視覚知覚に関連する様々な説明可能性原理をMLLMにベンチマークすることである。
論文 参考訳(メタデータ) (2025-04-16T22:14:27Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。