論文の概要: MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective
- arxiv url: http://arxiv.org/abs/2411.14062v1
- Date: Thu, 21 Nov 2024 12:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:54.585169
- Title: MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective
- Title(参考訳): MMGenBench:テキスト・画像生成の観点からLMMの限界を評価する
- Authors: Hailang Huang, Yong Wang, Zixuan Huang, Huaqiu Li, Tongwen Huang, Xiangxiang Chu, Richong Zhang,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は目覚ましい機能を示している。
入力画像から画像のプロンプトを生成するためにLMMを必要とする簡易な自動評価パイプラインを提案する。
次に、テキストから画像への生成モデルを用いて、生成したプロンプトに基づいて新しい画像を生成する。
最後に,元の画像と生成された画像を比較し,LMMの性能を評価する。
- 参考スコア(独自算出の注目度): 32.55432949789787
- License:
- Abstract: Large Multimodal Models (LMMs) have demonstrated remarkable capabilities. While existing benchmarks for evaluating LMMs mainly focus on image comprehension, few works evaluate them from the image generation perspective. To address this issue, we propose a straightforward automated evaluation pipeline. Specifically, this pipeline requires LMMs to generate an image-prompt from a given input image. Subsequently, it employs text-to-image generative models to create a new image based on these generated prompts. Finally, we evaluate the performance of LMMs by comparing the original image with the generated one. Furthermore, we introduce MMGenBench-Test, a comprehensive benchmark developed to evaluate LMMs across 13 distinct image patterns, and MMGenBench-Domain, targeting the performance evaluation of LMMs within the generative image domain. A thorough evaluation involving over 50 popular LMMs demonstrates the effectiveness and reliability in both the pipeline and benchmark. Our observations indicate that numerous LMMs excelling in existing benchmarks fail to adequately complete the basic tasks, related to image understanding and description. This finding highlights the substantial potential for performance improvement in current LMMs and suggests avenues for future model optimization. Concurrently, our pipeline facilitates the efficient assessment of LMMs performance across diverse domains by using solely image inputs.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は目覚ましい機能を示している。
LMMを評価するための既存のベンチマークは主にイメージ理解に焦点を当てているが、画像生成の観点から評価する研究はほとんどない。
この問題に対処するため,簡単な自動評価パイプラインを提案する。
具体的には、このパイプラインは、与えられた入力画像から画像プロンプトを生成するためにLMMを必要とする。
その後、テキストから画像への生成モデルを使用して、生成されたプロンプトに基づいて新しい画像を生成する。
最後に,元の画像と生成された画像を比較し,LMMの性能を評価する。
さらに,13の異なる画像パターン間でLMMを評価するための総合的なベンチマークであるMMGenBench-Testと,生成画像領域におけるLMMの性能評価を目的としたMMGenBench-Domainを紹介する。
50以上の人気のあるLMMを含む徹底的な評価は、パイプラインとベンチマークの両方の有効性と信頼性を示している。
既存のベンチマークで優れている多くのLMMが、画像の理解や記述に関連する基本的なタスクを適切に完了できないことを示す。
この発見は、現在のLMMの性能改善の可能性を強調し、将来のモデル最適化への道のりを示唆している。
同時に,このパイプラインは,画像入力のみを用いることで,多様な領域にわたるLMMの性能評価を容易にする。
関連論文リスト
- Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences? [32.61269125015993]
StripCipherはLMM(Large Multimodal Models)の機能を評価するために設計されたベンチマークである。
StripCipherは、人間の注釈付きデータセットと、視覚的物語理解、文脈的フレーム予測、時間的物語再構成という3つの挑戦的なサブタスクで構成されている。
GPT-4o や Qwen2.5VL など 16 ドルの最先端 LMM を評価した結果,人的能力と比較して大きな性能差がみられた。
論文 参考訳(メタデータ) (2025-02-19T18:04:44Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding [103.69014172427026]
大規模マルチモーダルモデル(LMM)は、最近、テキストに富む画像理解において大きな進歩を見せている。
長文書理解を支援するLMMの能力を拡張したLoRA-Contextualizing Adaptation of Large Multimodal Model (LoCAL) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-02T02:09:01Z) - R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions? [86.94616033250068]
R-Benchは、LMMs*の**実世界のロバストネスに焦点を当てたベンチマークである。
LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定しない。
我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
論文 参考訳(メタデータ) (2024-10-07T20:12:08Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。