Fugu-MT 論文翻訳(概要): GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs

論文の概要: GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs

arxiv url: http://arxiv.org/abs/2506.00991v2
Date: Tue, 05 Aug 2025 09:17:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-06 15:23:34.268919
Title: GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs
Title（参考訳）: GOBench: MLLMの生成と理解のベンチマーク
Authors: Xiaorong Zhu, Ziheng Jia, Jiarui Wang, Xiangyu Zhao, Haodong Duan, Xiongkuo Min, Jia Wang, Zicheng Zhang, Guangtao Zhai,
Abstract要約: 本稿では,光学的認証画像の生成と光現象の理解という,MLLMの能力を評価する最初のベンチマークであるGOBenchを紹介する。 MLLMを用いてGOBench-Gen-1kデータセットを構築し,光学的正当性,審美的品質,インストラクション忠実度に基づいて生成した画像を評価する。本研究は,11個の著名なMLLMの光学的理解能力をテストするために,工芸的な評価手法を適用し,実験結果から,光学的生成と理解の両方において,現在のモデルが重大な課題に直面していることが示されている。
参考スコア（独自算出の注目度）: 66.55945133516776
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid evolution of Multi-modality Large Language Models (MLLMs) is driving significant advancements in visual understanding and generation. Nevertheless, a comprehensive assessment of their capabilities, concerning the fine-grained physical principles especially in geometric optics, remains underexplored. To address this gap, we introduce GOBench, the first benchmark to systematically evaluate MLLMs' ability across two tasks: 1) Generating Optically Authentic Imagery and 2) Understanding Underlying Optical Phenomena. We curates high-quality prompts of geometric optical scenarios and use MLLMs to construct GOBench-Gen-1k dataset.We then organize subjective experiments to assess the generated imagery based on Optical Authenticity, Aesthetic Quality, and Instruction Fidelity, revealing MLLMs' generation flaws that violate optical principles. For the understanding task, we apply crafted evaluation instructions to test optical understanding ability of eleven prominent MLLMs. The experimental results demonstrate that current models face significant challenges in both optical generation and understanding. The top-performing generative model, GPT-4o-Image, cannot perfectly complete all generation tasks, and the best-performing MLLM model, Gemini-2.5Pro, attains a mere 37.35\% accuracy in optical understanding. Database and codes are publicly available at https://github.com/aiben-ch/GOBench.
Abstract（参考訳）: MLLM(Multi-modality Large Language Models)の急速な進化は、視覚的理解と生成に大きな進歩をもたらしている。しかし、特に幾何学光学における微粒な物理原理に関する、それらの能力の包括的な評価は、まだ未解明のままである。このギャップに対処するため、私たちは2つのタスクでMLLMの能力を体系的に評価する最初のベンチマークであるGOBenchを紹介します。 1)光学的正当性画像の生成と表示 2)光現象の理解我々は、光学的シナリオの高品質なプロンプトをキュレートし、MLLMを用いてGOBench-Gen-1kデータセットを構築する。本研究は,11個の著名なMLLMの光学的理解能力をテストするために,手作業による評価手法を適用した。実験により、現在のモデルは光生成と理解の両方において重大な課題に直面していることが示された。最も優れた生成モデルであるGPT-4o-Imageはすべての生成タスクを完全に完了することができず、最も優れたMLLMモデルであるGemini-2.5Proは光学的理解においてわずか37.35\%の精度が得られる。データベースとコードはhttps://github.com/aiben-ch/GOBench.comで公開されている。

関連論文リスト

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions [23.294711275107606]
本稿では,画像から2次元の幾何情報を正確に転写するMLLMの能力を評価するベンチマークであるGeoperceptionを紹介する。次に、幾何学的タスクにおける性能向上のための戦略を探るため、総合的な実証的研究を行う。我々は,強低レベルの幾何学的知覚に特化して最適化されたモデル群であるEuclidを開発する。
論文参考訳（メタデータ） (2024-12-11T19:12:13Z)
EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning [16.631783647518706]
既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。 ElevAte Geometric reasoningのために設計された2段階の視覚拡張MLLMフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-21T07:43:50Z)
II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models [49.070801221350486]
マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
論文参考訳（メタデータ） (2024-06-09T17:25:47Z)
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文参考訳（メタデータ） (2024-02-11T06:44:11Z)
From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。 1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文参考訳（メタデータ） (2024-01-31T16:38:32Z)
AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文参考訳（メタデータ） (2024-01-16T10:58:07Z)
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。 Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文参考訳（メタデータ） (2023-09-25T14:43:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。