論文の概要: Can MLLMs "Read" What is Missing?
- arxiv url: http://arxiv.org/abs/2604.21277v2
- Date: Sun, 26 Apr 2026 08:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 13:03:00.564091
- Title: Can MLLMs "Read" What is Missing?
- Title(参考訳): MLLMs "Read" What is Missing?
- Authors: Jindi Guo, Chaozheng Huang, Xi Fang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の本質的な能力を評価するためのベンチマークであるMMTR-Benchを導入する。
従来の質問応答タスクとは異なり、MMTR-Benchは明示的なプロンプトを排除している。
MMTR-Benchは、複数の言語と様々なターゲット長さにまたがる2,771の試験サンプルからなる。
- 参考スコア(独自算出の注目度): 2.7300368031373505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MMTR-Bench, a benchmark designed to evaluate the intrinsic ability of Multimodal Large Language Models (MLLMs) to reconstruct masked text directly from visual context. Unlike conventional question-answering tasks, MMTR-Bench eliminates explicit prompts, requiring models to recover masked text from single- or multi-page inputs across real-world domains such as documents and webpages. This design isolates the reconstruction task from instruction-following abilities, enabling a direct assessment of a model's layout understanding, visual grounding, and knowledge integration. MMTR-Bench comprises 2,771 test samples spanning multiple languages and varying target lengths. To account for this diversity, we propose a level-aware evaluation protocol. Experiments on representative MLLMs show that the benchmark poses a significant challenge, especially for sentence- and paragraph-level reconstruction. The homepage is available at https://mmtr-bench-dataset.github.io/MMTR-Bench/.
- Abstract(参考訳): MMTR-Benchは,マルチモーダル大言語モデル(MLLM)による視覚的コンテキストから直接マスキングされたテキストを再構築する本質的な能力を評価するためのベンチマークである。
従来の質問応答タスクとは異なり、MMTR-Benchは明示的なプロンプトを排除し、文書やWebページのような現実世界のドメインにまたがるシングルページまたはマルチページの入力からマスキングされたテキストを復元する必要がある。
この設計は、再構成タスクを命令追従能力から分離し、モデルのレイアウト理解、視覚的接地、知識統合の直接的な評価を可能にする。
MMTR-Benchは、複数の言語と様々なターゲット長さにまたがる2,771の試験サンプルからなる。
この多様性を考慮し,レベルアウェア評価プロトコルを提案する。
代表的MLLMの実験は、特に文や段落レベルの再構築において、ベンチマークが重要な課題となることを示している。
ホームページはhttps://mmtr-bench-dataset.github.io/MMTR-Bench/で公開されている。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。