論文の概要: MM-OPERA: Benchmarking Open-ended Association Reasoning for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.26937v1
- Date: Thu, 30 Oct 2025 18:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 19:57:09.732407
- Title: MM-OPERA: Benchmarking Open-ended Association Reasoning for Large Vision-Language Models
- Title(参考訳): MM-OPERA:大規模視覚言語モデルのためのオープンエンドアソシエーション推論のベンチマーク
- Authors: Zimeng Huang, Jinxin Ke, Xiaoxuan Fan, Yufeng Yang, Yang Liu, Liu Zhonghan, Zedi Wang, Junteng Dai, Haoyi Jiang, Yuyu Zhou, Keze Wang, Ziliang Chen,
- Abstract要約: 我々は、根本的だが未解明の知性、すなわち結束を評価することを目指している。
MM-OPERAは、2つのオープンエンドタスクにまたがる11,497のインスタンスを持つ体系的なベンチマークである。
異なる思考と収束した連想的推論の精神に類似するようにLVLMに挑戦する。
- 参考スコア(独自算出の注目度): 15.929002709503921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have exhibited remarkable progress. However, deficiencies remain compared to human intelligence, such as hallucination and shallow pattern matching. In this work, we aim to evaluate a fundamental yet underexplored intelligence: association, a cornerstone of human cognition for creative thinking and knowledge integration. Current benchmarks, often limited to closed-ended tasks, fail to capture the complexity of open-ended association reasoning vital for real-world applications. To address this, we present MM-OPERA, a systematic benchmark with 11,497 instances across two open-ended tasks: Remote-Item Association (RIA) and In-Context Association (ICA), aligning association intelligence evaluation with human psychometric principles. It challenges LVLMs to resemble the spirit of divergent thinking and convergent associative reasoning through free-form responses and explicit reasoning paths. We deploy tailored LLM-as-a-Judge strategies to evaluate open-ended outputs, applying process-reward-informed judgment to dissect reasoning with precision. Extensive empirical studies on state-of-the-art LVLMs, including sensitivity analysis of task instances, validity analysis of LLM-as-a-Judge strategies, and diversity analysis across abilities, domains, languages, cultures, etc., provide a comprehensive and nuanced understanding of the limitations of current LVLMs in associative reasoning, paving the way for more human-like and general-purpose AI. The dataset and code are available at https://github.com/MM-OPERA-Bench/MM-OPERA.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、非常に進歩している。
しかし、幻覚や浅いパターンマッチングのような人間の知能と比較すると、欠点は残る。
本研究は,創造的思考と知識統合のための人間認知の基盤であるアソシエーション(アソシエーション)という,根底的で未解明のインテリジェンスを評価することを目的としている。
現在のベンチマークは、しばしばクローズドエンドタスクに限定されているが、現実世界のアプリケーションに不可欠なオープンエンドアソシエーションの複雑さを捉えていない。
これを解決するために, MM-OPERAは, リモートアイテムアソシエーション (RIA) とインコンテキストアソシエーション (ICA) の2つのオープンなタスクにまたがる11,497のインスタンスを持つ体系的ベンチマークである。
LVLMは、自由形式の反応と明示的な推論経路を通じて、散逸した思考と収束した連想的推論の精神に類似するように挑戦する。
提案手法は,LLM-as-a-Judge法を用いてオープンエンド出力の評価を行い,プロセス逆インフォームド判定を適用して精度の高い推論を判別する。
タスクインスタンスの感度分析、LLM-as-a-Judge戦略の妥当性分析、能力、ドメイン、言語、文化などにわたる多様性分析を含む、最先端のLVLMに関する広範な実証的研究は、連想的推論における現在のLVLMの限界の包括的でニュアンスな理解を提供し、より人間らしく汎用的なAIへの道を開いた。
データセットとコードはhttps://github.com/MM-OPERA-Bench/MM-OPERAで公開されている。
関連論文リスト
- AssoCiAm: A Benchmark for Evaluating Association Thinking while Circumventing Ambiguity [40.69669704668314]
マルチモーダル大言語モデル(MLLM)は、人工知能(AGI)への有望な経路を提供するなど、大きな注目を集めている。
AGIに必要な重要な能力のうち、創造性はMLLMにとって重要な特性として現れ、その基盤として協会が機能している。
AssoCiAmは、ハイブリッド計算手法により曖昧さを回避しつつ、連想能力を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-09-17T16:56:27Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。