論文の概要: GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs
- arxiv url: http://arxiv.org/abs/2506.00991v1
- Date: Sun, 01 Jun 2025 12:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.89024
- Title: GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs
- Title(参考訳): GOBench: MLLMの生成と理解のベンチマーク
- Authors: Xiaorong Zhu, Ziheng Jia, Jiarui Wang, Xiangyu Zhao, Haodong Duan, Xiongkuo Min, Jia Wang, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: 本稿では,光学的認証画像の生成と光現象の理解という,MLLMの能力を評価する最初のベンチマークであるGOBenchを紹介する。
次に、光学的正当性、審美的品質、指示忠実度に基づいて、生成した画像を評価するための主観的な実験を組織する。
本研究は,11個の著名なMLLMの光学的理解能力をテストするために,手作業による評価手法を適用した。
- 参考スコア(独自算出の注目度): 66.55945133516776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of Multi-modality Large Language Models (MLLMs) is driving significant advancements in visual understanding and generation. Nevertheless, a comprehensive assessment of their capabilities, concerning the fine-grained physical principles especially in geometric optics, remains underexplored. To address this gap, we introduce GOBench, the first benchmark to systematically evaluate MLLMs' ability across two tasks: 1) Generating Optically Authentic Imagery and 2) Understanding Underlying Optical Phenomena. We curates high-quality prompts of geometric optical scenarios and use MLLMs to construct GOBench-Gen-1k dataset.We then organize subjective experiments to assess the generated imagery based on Optical Authenticity, Aesthetic Quality, and Instruction Fidelity, revealing MLLMs' generation flaws that violate optical principles. For the understanding task, we apply crafted evaluation instructions to test optical understanding ability of eleven prominent MLLMs. The experimental results demonstrate that current models face significant challenges in both optical generation and understanding. The top-performing generative model, GPT-4o-Image, cannot perfectly complete all generation tasks, and the best-performing MLLM model, Gemini-2.5Pro, attains a mere 37.35\% accuracy in optical understanding.
- Abstract(参考訳): MLLM(Multi-modality Large Language Models)の急速な進化は、視覚的理解と生成に大きな進歩をもたらしている。
しかし、特に幾何学光学における微粒な物理原理に関する、それらの能力の包括的な評価は、まだ未解明のままである。
このギャップに対処するため、私たちは2つのタスクでMLLMの能力を体系的に評価する最初のベンチマークであるGOBenchを紹介します。
1)光学的正当性画像の生成と表示
2)光現象の理解
我々は、光学的シナリオの高品質なプロンプトをキュレートし、MLLMを用いてGOBench-Gen-1kデータセットを構築する。
本研究は,11個の著名なMLLMの光学的理解能力をテストするために,手作業による評価手法を適用した。
実験により、現在のモデルは光生成と理解の両方において重大な課題に直面していることが示された。
最も優れた生成モデルであるGPT-4o-Imageはすべての生成タスクを完全に完了することができず、最も優れたMLLMモデルであるGemini-2.5Proは光学的理解においてわずか37.35\%の精度が得られる。
関連論文リスト
- EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning [16.631783647518706]
既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。
以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。
ElevAte Geometric reasoningのために設計された2段階の視覚拡張MLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:50Z) - II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models [49.070801221350486]
マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。
本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-09T17:25:47Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。