論文の概要: LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs
- arxiv url: http://arxiv.org/abs/2504.08358v1
- Date: Fri, 11 Apr 2025 08:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:52.235192
- Title: LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs
- Title(参考訳): LMM4LMM:LMMを用いた大規模マルチモーダル画像生成のベンチマークと評価
- Authors: Jiarui Wang, Huiyu Duan, Yu Zhao, Juntong Wang, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: 大規模マルチモーダル画像生成評価のための総合的データセットとベンチマークであるEvalMi-50Kを提案する。
複数の次元から大きなマルチモーダルT2Iを生成するためのLMM4LMMを提案する。
- 参考スコア(独自算出の注目度): 52.79503055897109
- License:
- Abstract: Recent breakthroughs in large multimodal models (LMMs) have significantly advanced both text-to-image (T2I) generation and image-to-text (I2T) interpretation. However, many generated images still suffer from issues related to perceptual quality and text-image alignment. Given the high cost and inefficiency of manual evaluation, an automatic metric that aligns with human preferences is desirable. To this end, we present EvalMi-50K, a comprehensive dataset and benchmark for evaluating large-multimodal image generation, which features (i) comprehensive tasks, encompassing 2,100 extensive prompts across 20 fine-grained task dimensions, and (ii) large-scale human-preference annotations, including 100K mean-opinion scores (MOSs) and 50K question-answering (QA) pairs annotated on 50,400 images generated from 24 T2I models. Based on EvalMi-50K, we propose LMM4LMM, an LMM-based metric for evaluating large multimodal T2I generation from multiple dimensions including perception, text-image correspondence, and task-specific accuracy. Extensive experimental results show that LMM4LMM achieves state-of-the-art performance on EvalMi-50K, and exhibits strong generalization ability on other AI-generated image evaluation benchmark datasets, manifesting the generality of both the EvalMi-50K dataset and LMM4LMM metric. Both EvalMi-50K and LMM4LMM will be released at https://github.com/IntMeGroup/LMM4LMM.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、テキスト・ツー・イメージ(T2I)生成と画像・ツー・テキスト(I2T)解釈の両方を大きく進歩させた。
しかし、多くの生成された画像は、知覚品質とテキスト画像のアライメントに関する問題に悩まされている。
手動評価のコストと非効率性を考えると、人間の好みに合わせた自動測定が望ましい。
この目的のために,大規模マルチモーダル画像生成評価のための包括的データセットとベンチマークであるEvalMi-50Kを提案する。
(i)20のきめ細かいタスクディメンションにまたがる2,100の広範囲なプロンプトを含む包括的タスク
(II)T2Iモデルから生成した50,400の画像に注釈を付した100K平均オピニオンスコア(MOS)と50K質問回答(QA)ペアを含む大規模人為的参照アノテーション。
EvalMi-50Kに基づくLMM4LMMは、知覚、テキスト画像対応、タスク固有の精度を含む複数の次元から大きなマルチモーダルT2Iを生成するためのLMM4LMMである。
実験の結果,LMM4LMMはEvalMi-50K上での最先端性能を実現し,他のAI生成画像評価ベンチマークデータセットに対して強力な一般化能力を示し,EvalMi-50KデータセットとLMM4LMMメトリクスの両方の一般性を示すことがわかった。
EvalMi-50KとLMM4LMMはhttps://github.com/IntMeGroup/LMM4LMMでリリースされる。
関連論文リスト
- OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。
その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文 参考訳(メタデータ) (2024-12-31T07:32:35Z) - Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models [10.828419851213528]
人間の生活の一般的な6つのシナリオをカバーする500以上の画像を含む多次元インサイト(Multi-dimensional Insights)ベンチマークを提案する。
この設計により、異なる年齢集団の好みやニーズを満たすLMMの能力を詳細に評価することができる。
今後、MDI-BenchmarkがLMMにおける現実のパーソナライゼーションを整合させる新たな経路を開拓することを期待している。
論文 参考訳(メタデータ) (2024-12-17T07:06:10Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。
MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文 参考訳(メタデータ) (2024-08-01T17:59:54Z) - ShareGPT4V: Improving Large Multi-Modal Models with Better Captions [81.95879920888716]
120万の記述キャプションを含むデータセットであるShareGPT4Vを紹介する。
このデータセットは、多様性と情報内容の既存のデータセットを超え、世界的知識、オブジェクトの特性、空間的関係、美的評価をカバーしている。
さらに,ShareGPT4Vデータを事前学習とSFTフェーズの両方に組み込んで,優れたLMMであるShareGPT4V-7Bを得る。
論文 参考訳(メタデータ) (2023-11-21T18:58:11Z) - KOSMOS-2.5: A Multimodal Literate Model [136.96172068766285]
テキスト集約画像の機械読取のためのマルチモーダルリテラルモデル KOSMOS-2.5 を提案する。
KOSMOS-2.5は2つの異なる相補的な転写タスクに優れる。
我々は文書理解タスクにKoSMOS-2.5を微調整し、KoSMOS-2.5-CHATという文書理解ジェネラリストを生み出した。
論文 参考訳(メタデータ) (2023-09-20T15:50:08Z) - WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。
画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。
また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文 参考訳(メタデータ) (2022-03-22T06:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。