論文の概要: Multimodal Benchmarking and Recommendation of Text-to-Image Generation Models
- arxiv url: http://arxiv.org/abs/2505.04650v1
- Date: Tue, 06 May 2025 18:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.610398
- Title: Multimodal Benchmarking and Recommendation of Text-to-Image Generation Models
- Title(参考訳): テキスト・画像生成モデルのマルチモーダルベンチマークと勧告
- Authors: Kapil Wanaskar, Gaytri Jena, Magdalini Eirinaki,
- Abstract要約: 本研究は,テキスト・ツー・イメージ・ジェネレーション・モデルのためのオープンソースの統一ベンチマーク・評価フレームワークを提案する。
本フレームワークは,モデル選択のためのタスク固有のレコメンデーションと,評価指標に基づく設計の促進を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents an open-source unified benchmarking and evaluation framework for text-to-image generation models, with a particular focus on the impact of metadata augmented prompts. Leveraging the DeepFashion-MultiModal dataset, we assess generated outputs through a comprehensive set of quantitative metrics, including Weighted Score, CLIP (Contrastive Language Image Pre-training)-based similarity, LPIPS (Learned Perceptual Image Patch Similarity), FID (Frechet Inception Distance), and retrieval-based measures, as well as qualitative analysis. Our results demonstrate that structured metadata enrichments greatly enhance visual realism, semantic fidelity, and model robustness across diverse text-to-image architectures. While not a traditional recommender system, our framework enables task-specific recommendations for model selection and prompt design based on evaluation metrics.
- Abstract(参考訳): 本研究は,メタデータ付加プロンプトの影響に着目した,テキスト・画像生成モデルのためのオープンソースの統合ベンチマーク・評価フレームワークを提案する。
DeepFashion-MultiModalデータセットを利用することで、重み付きスコア、CLIP(Contrastive Language Image Pre-training)ベースの類似性、LPIPS(Learned Perceptual Image Patch similarity)、FID(Frechet Inception Distance)、検索ベースの測定、質的分析などを含む、総合的なメトリクスセットを通じて生成された出力を評価する。
この結果から,構造化メタデータの充実は視覚的リアリズム,意味的忠実度,多種多様なテキスト・画像アーキテクチャ間のロバスト性を大幅に向上させることが示された。
従来のレコメンデータシステムではないが,提案フレームワークはモデル選択のためのタスク固有のレコメンデーションを可能にし,評価基準に基づいた設計を促す。
関連論文リスト
- EvalGIM: A Library for Evaluating Generative Image Models [26.631349186382664]
テキストから画像への生成モデルを評価するためのライブラリであるEvalGIMを紹介する。
EvalGIMは、品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。
EvalGIMには、テキストから画像への生成モデルのための2つの新しい分析手法を導入する評価演習も含まれている。
論文 参考訳(メタデータ) (2024-12-13T23:15:35Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。