論文の概要: JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction
- arxiv url: http://arxiv.org/abs/2512.14620v1
- Date: Tue, 16 Dec 2025 17:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.81668
- Title: JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction
- Title(参考訳): JMMMU-Pro:バイブベンチマーク構築による画像に基づく日本語多分野マルチモーダル理解ベンチマーク
- Authors: Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa,
- Abstract要約: 本稿では,JMMMU-Proについて紹介する。
画像生成モデル(例えばNano Banana Pro)が候補となる視覚的質問を生成する手法であるVibe Benchmark Constructionを提案する。
高品質なベンチマークを低コストで構築し、幅広い背景設計とレイアウト設計を網羅する。
- 参考スコア(独自算出の注目度): 31.189322858209948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.
- Abstract(参考訳): 本稿では,JMMMU-Proと拡張性のある構築手法であるVibe Benchmark Constructionを紹介する。
MMMUからMMMU-Proへの進化に続いて、JMMMU-Proは、質問画像と質問テキストを単一の画像に構成することでJMMMUを拡張し、視覚知覚による統合的な視覚的テキスト理解を必要とするベンチマークを作成する。
JMMMU-Proを構築するために,画像生成モデル(例えばNano Banana Pro)が候補となる視覚的質問を生成する手法であるVibe Benchmark Constructionを提案する。
そこで,Nano Banana Proの高精細な画像生成機能と,清潔な日本語テキストを埋め込む機能を活用して,さまざまな背景やレイアウトを網羅した高品質なベンチマークを低コストで構築する。
実験の結果,オープンソース LMM は JMMMU-Pro とほぼ競合し,JMMMU-Pro をオープンソースコミュニティにおける今後の取り組みを導く重要なベンチマークとして位置づけている。
JMMMU-Proは、LMMの日本語能力を評価するためのより厳密な評価ツールであり、私たちのVibe Benchmark Constructionは、画像ベースのVQAベンチマークの開発のための効率的なガイドラインも提供すると考えている。
関連論文リスト
- MMGenBench: Fully Automatically Evaluating LMMs from the Text-to-Image Generation Perspective [32.55432949789787]
本稿では,MMGenBench-Pipelineを提案する。
これには、入力画像からテキスト記述を生成し、これらの記述を使用して、テキストから画像への生成モデルを介して補助的な画像を作成することが含まれる。
MMGenBench-Pipelineは画像入力のみを用いて、様々な領域にわたるLMMの性能を効率的に評価することができる。
論文 参考訳(メタデータ) (2024-11-21T12:16:16Z) - MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。