Fugu-MT 論文翻訳(概要): MMR: Evaluating Reading Ability of Large Multimodal Models

論文の概要: MMR: Evaluating Reading Ability of Large Multimodal Models

arxiv url: http://arxiv.org/abs/2408.14594v1
Date: Mon, 26 Aug 2024 19:26:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 17:40:47.400168
Title: MMR: Evaluating Reading Ability of Large Multimodal Models
Title（参考訳）: MMR:大規模マルチモーダルモデルの読解能力の評価
Authors: Jian Chen, Ruiyi Zhang, Yufan Zhou, Ryan Rossi, Jiuxiang Gu, Changyou Chen,
Abstract要約: 大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
参考スコア（独自算出の注目度）: 52.953316772123586
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large multimodal models (LMMs) have demonstrated impressive capabilities in understanding various types of image, including text-rich images. Most existing text-rich image benchmarks are simple extraction-based question answering, and many LMMs now easily achieve high scores. This means that current benchmarks fail to accurately reflect performance of different models, and a natural idea is to build a new benchmark to evaluate their complex reasoning and spatial understanding abilities. In this work, we propose the Multi-Modal Reading (MMR) benchmark in 11 diverse tasks to evaluate LMMs for text-rich image understanding. MMR is the first text-rich image benchmark built on human annotations with the help of language models. By evaluating several state-of-the-art LMMs, including GPT-4o, it reveals the limited capabilities of existing LMMs underscoring the value of our benchmark.
Abstract（参考訳）: 大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。既存のテキストリッチ画像ベンチマークの多くは単純な抽出に基づく質問応答であり、多くのLMMは高いスコアを容易に得る。これは、現在のベンチマークが、異なるモデルのパフォーマンスを正確に反映できないことを意味しており、自然な考え方は、それらの複雑な推論と空間的理解能力を評価するために、新しいベンチマークを構築することである。本研究では,テキストに富んだ画像理解のためのLMMを評価するために,11のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。 MMRは、言語モデルの助けを借りて人間のアノテーション上に構築された最初のテキストリッチイメージベンチマークである。 GPT-4oを含むいくつかの最先端のLMMを評価することで、既存のLMMがベンチマークの価値を裏付ける能力に限界があることを明らかにする。

関連論文リスト

Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences? [32.61269125015993]
StripCipherはLMM(Large Multimodal Models)の機能を評価するために設計されたベンチマークである。 StripCipherは、人間の注釈付きデータセットと、視覚的物語理解、文脈的フレーム予測、時間的物語再構成という3つの挑戦的なサブタスクで構成されている。 GPT-4o や Qwen2.5VL など 16 ドルの最先端 LMM を評価した結果,人的能力と比較して大きな性能差がみられた。
論文参考訳（メタデータ） (2025-02-19T18:04:44Z)
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文参考訳（メタデータ） (2024-12-31T07:32:35Z)
SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文参考訳（メタデータ） (2024-12-08T05:28:08Z)
MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective [32.55432949789787]
大規模マルチモーダルモデル(LMM)は目覚ましい機能を示している。入力画像から画像のプロンプトを生成するためにLMMを必要とする簡易な自動評価パイプラインを提案する。次に、テキストから画像への生成モデルを用いて、生成したプロンプトに基づいて新しい画像を生成する。最後に,元の画像と生成された画像を比較し,LMMの性能を評価する。
論文参考訳（メタデータ） (2024-11-21T12:16:16Z)
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文参考訳（メタデータ） (2024-10-25T16:00:55Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文参考訳（メタデータ） (2024-07-18T17:59:30Z)
Hijacking Context in Large Multi-modal Models [3.6411220072843866]
そこで本研究では,ごく少数の不整合画像がLMMを誤誘導し,ハイジャックされたコンテキストに関するバイアス出力のみを発生させる,オフザシェルフLMMの新たな制限を導入する。本稿では,GPT-4Vによる無関係なコンテキストを除去する事前フィルタリング手法を提案する。ハイジャックされた視覚的コンテキストとテキスト的コンテキストを、GPT-4Vおよびテキスト・ツー・イメージモデルを介して関連づけられたコンテキストに置き換えることで、コヒーレントな応答が得られるかどうかを検討する。
論文参考訳（メタデータ） (2023-12-07T11:23:29Z)
MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文参考訳（メタデータ） (2023-11-15T23:36:42Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。