論文の概要: Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory
- arxiv url: http://arxiv.org/abs/2603.02663v1
- Date: Tue, 03 Mar 2026 06:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.676218
- Title: Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory
- Title(参考訳): マルチモーダルアイテム応答理論を用いたクロスモーダル推論能力と問題特性の評価
- Authors: Shunki Uebayashi, Kento Masui, Kyohei Atarashi, Han Bao, Hisashi Kashima, Naoto Inoue, Mayu Otani, Koh Takeuchi,
- Abstract要約: マルチモーダル言語モデルのベンチマークは、クロスモーダル統合の能力を測定する必要がある。
現在のベンチマークはショートカットの質問で満たされており、単一のモダリティだけで解決できる。
従来のIRTを拡張したM3IRT(Multi-modal and multidimensional item response theory framework)を提案する。
M3IRTはMLLMのクロスモーダルな能力と各質問のクロスモーダルな難しさを推定し、コンパクトで高品質なサブセットを実現する。
- 参考スコア(独自算出の注目度): 22.63245796446805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently emerged as general architectures capable of reasoning over diverse modalities. Benchmarks for MLLMs should measure their ability for cross-modal integration. However, current benchmarks are filled with shortcut questions, which can be solved using only a single modality, thereby yielding unreliable rankings. For example, in vision-language cases, we can find the correct answer without either the image or the text. These low-quality questions unnecessarily increase the size and computational requirements of benchmarks. We introduce a multi-modal and multidimensional item response theory framework (M3IRT) that extends classical IRT by decomposing both model ability and item difficulty into image-only, text-only, and cross-modal components. M3IRT estimates cross-modal ability of MLLMs and each question's cross-modal difficulty, enabling compact, high-quality subsets that better reflect multimodal reasoning. Across 24 VLMs on three benchmarks, M3IRT prioritizes genuinely cross-modal questions over shortcuts and preserves ranking fidelity even when 50% of items are artificially generated low-quality questions, thereby reducing evaluation cost while improving reliability. M3IRT thus offers a practical tool for assessing cross-modal reasoning and refining multimodal benchmarks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、近年、様々なモダリティを推論できる汎用アーキテクチャとして登場した。
MLLMのベンチマークは、クロスモーダル統合の能力を測定する必要がある。
しかし、現在のベンチマークはショートカットの質問で満たされており、単一のモダリティだけで解決できるため、信頼性の低いランキングが得られる。
例えば、視覚言語の場合、画像やテキストを使わずに正しい答えを見つけることができる。
これらの低品質な質問は、ベンチマークのサイズと計算要求を不必要に増加させる。
M3IRT(Multi-modal and multidimensional item response theory framework)を導入し、モデル能力とアイテム難易度の両方を画像のみ、テキストのみ、およびクロスモーダルコンポーネントに分解することで、従来のIRTを拡張した。
M3IRTはMLLMのクロスモーダルな能力と各質問のクロスモーダルな難しさを推定し、マルチモーダルな推論をより良く反映するコンパクトで高品質なサブセットを可能にする。
3つのベンチマークで24個のVLMに対して、M3IRTは真にクロスモーダルな質問をショートカットよりも優先し、50%の項目が低品質な質問を人工的に生成してもランクの忠実さを保ち、信頼性を向上しながら評価コストを低減させる。
したがって、M3IRTはクロスモーダル推論とマルチモーダルベンチマークの精査のための実用的なツールを提供する。
関連論文リスト
- UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark [72.37370242707432]
本稿では,Unified Any-to-Any Interleaved MultimodalデータセットであるUniMベンチマークを紹介する。
UniMには30ドメインにわたる31Kの高品質インスタンスと7つの代表モダリティが含まれている。
セマンティック・コヒーレンス(Semantic Correctness & Generation Quality)、応答構造整合性(Re Response Structure Integrity)、インターリーブド・コヒーレンス(Interleaved Coherence)という3次元のモデルを評価する。
論文 参考訳(メタデータ) (2026-03-05T11:45:16Z) - MMR-Bench: A Comprehensive Benchmark for Multimodal LLM Routing [41.77627136743721]
実際のデプロイメントでは、ワークロードは軽量なOCRから複雑なマルチモーダル推論にまたがる。
ルーティングは、モダリティの融合、モデル間での計算コストの変動、標準化された予算対応評価の欠如などにより、簡単ではない。
MMR-Benchは、マルチモーダルルーティング問題を分離し、固定された候補セットとコストモデルで比較できる統一ベンチマークである。
論文 参考訳(メタデータ) (2026-01-25T12:44:14Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models [45.15161506154318]
Infi-MMRは、マルチモーダル小言語モデルの推論能力を体系的に解放するフレームワークである。
第1フェーズであるFoundational Reasoning Activationは、高品質なテキスト推論データセットを活用して、モデルの論理推論能力を活性化し、強化する。
第2のフェーズであるクロスモーダル推論適応は、キャプション拡張されたマルチモーダルデータを使用して、推論スキルをマルチモーダルコンテキストにプログレッシブに転送する。
第3フェーズであるMultimodal Reasoning Enhancementでは、言語バイアスを緩和し、堅牢なクロスモーダル推論を促進するために、キュレートされたキャプションフリーなマルチモーダルデータを採用している。
論文 参考訳(メタデータ) (2025-05-29T04:51:56Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning [5.65203350495478]
MLLMの推論能力を評価するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
この新しいベンチマークの実験では、最先端のMLLMでさえ苦戦しており、最高の性能のモデルは最も難しいレベルでは30.4%の精度しか達成していない。
論文 参考訳(メタデータ) (2024-12-17T05:50:55Z) - MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。