論文の概要: MMGenBench: Fully Automatically Evaluating LMMs from the Text-to-Image Generation Perspective
- arxiv url: http://arxiv.org/abs/2411.14062v2
- Date: Sat, 08 Mar 2025 10:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:47.021696
- Title: MMGenBench: Fully Automatically Evaluating LMMs from the Text-to-Image Generation Perspective
- Title(参考訳): MMGenBench:テキスト・画像生成の観点からLMMを完全自動評価する
- Authors: Hailang Huang, Yong Wang, Zixuan Huang, Huaqiu Li, Tongwen Huang, Xiangxiang Chu, Richong Zhang,
- Abstract要約: 本稿では,MMGenBench-Pipelineを提案する。
これには、入力画像からテキスト記述を生成し、これらの記述を使用して、テキストから画像への生成モデルを介して補助的な画像を作成することが含まれる。
MMGenBench-Pipelineは画像入力のみを用いて、様々な領域にわたるLMMの性能を効率的に評価することができる。
- 参考スコア(独自算出の注目度): 32.55432949789787
- License:
- Abstract: Large Multimodal Models (LMMs) demonstrate impressive capabilities. However, current benchmarks predominantly focus on image comprehension in specific domains, and these benchmarks are labor-intensive to construct. Moreover, their answers tend to be brief, making it difficult to assess the ability of LMMs to generate detailed descriptions of images. To address these limitations, we propose the MMGenBench-Pipeline, a straightforward and fully automated evaluation pipeline. This involves generating textual descriptions from input images, using these descriptions to create auxiliary images via text-to-image generative models, and then comparing the original and generated images. Furthermore, to ensure the effectiveness of MMGenBench-Pipeline, we design MMGenBench-Test, evaluating LMMs across 13 distinct image patterns, and MMGenBench-Domain, focusing on generative image performance. A thorough evaluation involving over 50 popular LMMs demonstrates the effectiveness and reliability of both the pipeline and benchmark. Our observations indicate that numerous LMMs excelling in existing benchmarks fail to adequately complete the basic tasks related to image understanding and description. This finding highlights the substantial potential for performance improvement in current LMMs and suggests avenues for future model optimization. Concurrently, MMGenBench-Pipeline can efficiently assess the performance of LMMs across diverse domains using only image inputs.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は印象的な機能を示している。
しかし、現在のベンチマークは主に特定の領域のイメージ理解に焦点を当てており、これらのベンチマークは構築に労力を要する。
さらに、その答えは簡潔である傾向があり、画像の詳細な記述を生成するLMMの能力を評価することは困難である。
これらの制約に対処するため,MMGenBench-Pipelineを提案する。
これには、入力画像からテキスト記述を生成し、これらの記述を使用して、テキストから画像への生成モデルを介して補助画像を生成し、元の画像と生成された画像を比較します。
さらに, MMGenBench-Pipelineの有効性を確認するために, MMGenBench-Testを設計し, 13の異なる画像パターンにわたるLMMを評価し, MMGenBench-Domainを生成画像性能に着目した。
50以上の人気のあるLMMを含む徹底的な評価は、パイプラインとベンチマークの両方の有効性と信頼性を示している。
既存のベンチマークで優れている多くのLMMは、画像の理解や記述に関する基本的なタスクを適切に完了できない。
この発見は、現在のLMMの性能改善の可能性を強調し、将来のモデル最適化への道のりを示唆している。
同時に、MMGenBench-Pipelineは画像入力のみを使用して、様々な領域にわたるLMMの性能を効率的に評価することができる。
関連論文リスト
- Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences? [32.61269125015993]
StripCipherはLMM(Large Multimodal Models)の機能を評価するために設計されたベンチマークである。
StripCipherは、人間の注釈付きデータセットと、視覚的物語理解、文脈的フレーム予測、時間的物語再構成という3つの挑戦的なサブタスクで構成されている。
GPT-4o や Qwen2.5VL など 16 ドルの最先端 LMM を評価した結果,人的能力と比較して大きな性能差がみられた。
論文 参考訳(メタデータ) (2025-02-19T18:04:44Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding [103.69014172427026]
大規模マルチモーダルモデル(LMM)は、最近、テキストに富む画像理解において大きな進歩を見せている。
長文書理解を支援するLMMの能力を拡張したLoRA-Contextualizing Adaptation of Large Multimodal Model (LoCAL) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-02T02:09:01Z) - R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions? [86.94616033250068]
R-Benchは、LMMs*の**実世界のロバストネスに焦点を当てたベンチマークである。
LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定しない。
我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
論文 参考訳(メタデータ) (2024-10-07T20:12:08Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。