論文の概要: JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction
- arxiv url: http://arxiv.org/abs/2512.14620v1
- Date: Tue, 16 Dec 2025 17:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.81668
- Title: JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction
- Title(参考訳): JMMMU-Pro:バイブベンチマーク構築による画像に基づく日本語多分野マルチモーダル理解ベンチマーク
- Authors: Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa,
- Abstract要約: 本稿では,JMMMU-Proについて紹介する。
画像生成モデル(例えばNano Banana Pro)が候補となる視覚的質問を生成する手法であるVibe Benchmark Constructionを提案する。
高品質なベンチマークを低コストで構築し、幅広い背景設計とレイアウト設計を網羅する。
- 参考スコア(独自算出の注目度): 31.189322858209948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.
- Abstract(参考訳): 本稿では,JMMMU-Proと拡張性のある構築手法であるVibe Benchmark Constructionを紹介する。
MMMUからMMMU-Proへの進化に続いて、JMMMU-Proは、質問画像と質問テキストを単一の画像に構成することでJMMMUを拡張し、視覚知覚による統合的な視覚的テキスト理解を必要とするベンチマークを作成する。
JMMMU-Proを構築するために,画像生成モデル(例えばNano Banana Pro)が候補となる視覚的質問を生成する手法であるVibe Benchmark Constructionを提案する。
そこで,Nano Banana Proの高精細な画像生成機能と,清潔な日本語テキストを埋め込む機能を活用して,さまざまな背景やレイアウトを網羅した高品質なベンチマークを低コストで構築する。
実験の結果,オープンソース LMM は JMMMU-Pro とほぼ競合し,JMMMU-Pro をオープンソースコミュニティにおける今後の取り組みを導く重要なベンチマークとして位置づけている。
JMMMU-Proは、LMMの日本語能力を評価するためのより厳密な評価ツールであり、私たちのVibe Benchmark Constructionは、画像ベースのVQAベンチマークの開発のための効率的なガイドラインも提供すると考えている。
関連論文リスト
- MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning [75.76032840813828]
我々は,画像とテキストを結合的に関連づけるテストタイム手法MILRを提案する。
統合マルチモーダル理解・生成フレームワーク内でMILRをインスタンス化する。
我々は、GenEval、T2I-CompBench、WISE上でMILRを評価し、すべてのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-09-26T14:06:10Z) - Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models [10.828419851213528]
人間の生活の一般的な6つのシナリオをカバーする500以上の画像を含む多次元インサイト(Multi-dimensional Insights)ベンチマークを提案する。
この設計により、異なる年齢集団の好みやニーズを満たすLMMの能力を詳細に評価することができる。
今後、MDI-BenchmarkがLMMにおける現実のパーソナライゼーションを整合させる新たな経路を開拓することを期待している。
論文 参考訳(メタデータ) (2024-12-17T07:06:10Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - MMGenBench: Fully Automatically Evaluating LMMs from the Text-to-Image Generation Perspective [32.55432949789787]
本稿では,MMGenBench-Pipelineを提案する。
これには、入力画像からテキスト記述を生成し、これらの記述を使用して、テキストから画像への生成モデルを介して補助的な画像を作成することが含まれる。
MMGenBench-Pipelineは画像入力のみを用いて、様々な領域にわたるLMMの性能を効率的に評価することができる。
論文 参考訳(メタデータ) (2024-11-21T12:16:16Z) - MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Synthetic Multimodal Question Generation [60.33494376081317]
MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。
マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。
SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
論文 参考訳(メタデータ) (2024-07-02T12:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。