Fugu-MT 論文翻訳(概要): MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark

論文の概要: MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark

arxiv url: http://arxiv.org/abs/2410.11538v1
Date: Tue, 15 Oct 2024 12:13:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.769922
Title: MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark
Title（参考訳）: MCTBench: テキストリッチビジュアルシーンベンチマークに対するマルチモーダル認知
Authors: Bin Shan, Xiang Fei, Wei Shi, An-Lan Wang, Guozhi Tang, Lei Liao, Jingqun Tang, Xiang Bai, Can Huang,
Abstract要約: マルチモーダル大規模言語モデル(MLLM)の評価において,テキストリッチな視覚シーンの理解が焦点となっている。テキストリッチな視覚シーンに対するマルチモーダル・ベンチマークを導入し、視覚推論とコンテンツ作成タスク(MCTBench)を通してMLLMの認知能力を評価する。 MCTBenchは、MLLMの認知能力と知覚能力の両方を一貫した比較を保証するために、いくつかの知覚タスクを組み込んでいる。
参考スコア（独自算出の注目度）: 46.46727031818962
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The comprehension of text-rich visual scenes has become a focal point for evaluating Multi-modal Large Language Models (MLLMs) due to their widespread applications. Current benchmarks tailored to the scenario emphasize perceptual capabilities, while overlooking the assessment of cognitive abilities. To address this limitation, we introduce a Multimodal benchmark towards Text-rich visual scenes, to evaluate the Cognitive capabilities of MLLMs through visual reasoning and content-creation tasks (MCTBench). To mitigate potential evaluation bias from the varying distributions of datasets, MCTBench incorporates several perception tasks (e.g., scene text recognition) to ensure a consistent comparison of both the cognitive and perceptual capabilities of MLLMs. To improve the efficiency and fairness of content-creation evaluation, we conduct an automatic evaluation pipeline. Evaluations of various MLLMs on MCTBench reveal that, despite their impressive perceptual capabilities, their cognition abilities require enhancement. We hope MCTBench will offer the community an efficient resource to explore and enhance cognitive capabilities towards text-rich visual scenes.
Abstract（参考訳）: テキストに富む視覚シーンの理解は、多モーダル大規模言語モデル(MLLM)の評価の焦点となっている。シナリオに合わせて調整された現在のベンチマークでは、認知能力の評価を見越しながら、知覚能力を強調している。この制限に対処するために、テキストリッチな視覚シーンに対するマルチモーダル・ベンチマークを導入し、視覚的推論とコンテンツ生成タスク(MCTBench)を通してMLLMの認知能力を評価する。 MCTBenchは、データセットの様々な分布から潜在的評価バイアスを軽減するために、MLLMの認知能力と知覚能力の一貫性を確実に比較するために、いくつかの知覚タスク(例えば、シーンテキスト認識)を組み込んでいる。コンテンツ作成評価の効率性と公平性を向上させるため,自動評価パイプラインを構築した。 MCTBenchにおける様々なMLLMの評価は、その印象的な知覚能力にも拘わらず、認知能力の増強が要求されることを示した。 MCTBenchがコミュニティに、テキストリッチな視覚シーンに対する認知能力を探求し、強化するための効率的なリソースを提供することを期待しています。

関連論文リスト

True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文参考訳（メタデータ） (2025-07-21T17:08:18Z)
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。 V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
Are Large Vision Language Models Good Game Players? [25.49713745405194]
大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方について理解と推論において顕著な能力を示した。既存のLVLMの評価手法は、主にVisual Question Answeringのようなベンチマークに基づいており、LVLMの能力の全範囲を捉えていないことが多い。構造化環境におけるLVLMの認知・推論スキルを総合的に評価するためのゲームベース評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T07:29:03Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価既存のMLLMでは評価が困難でありながら,評価の容易化を図るために,視覚質問応答(VQA)の特殊な形式に着目する。複数の画像を読み、理解する能力は、アクティブな知覚を可能にする上で重要な役割を担っている。
論文参考訳（メタデータ） (2024-10-07T00:16:26Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文参考訳（メタデータ） (2024-06-24T17:52:16Z)
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文参考訳（メタデータ） (2024-04-25T17:39:35Z)
NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。異なるモデルにまたがる推論能力に有意な差が認められた。また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文参考訳（メタデータ） (2024-03-04T07:10:31Z)
VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。 We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文参考訳（メタデータ） (2023-12-21T18:49:47Z)
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。 Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文参考訳（メタデータ） (2023-09-25T14:43:43Z)
TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。 GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文参考訳（メタデータ） (2023-08-31T17:52:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。