論文の概要: DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2506.05108v1
- Date: Thu, 05 Jun 2025 14:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.77009
- Title: DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models
- Title(参考訳): DIMCIM:テキスト・画像生成モデルにおけるデフォルトモードの多様性と一般化のための定量的評価フレームワーク
- Authors: Revant Teotia, Candace Ross, Karen Ullrich, Sumit Chopra, Adriana Romero-Soriano, Melissa Hall, Matthew J. Muckley,
- Abstract要約: 我々は、デフォルトモードの多様性を基準無しで測定するDod-it/Can-itフレームワーク、DIM-CIMを紹介する。
1.5Bから8.1Bパラメータへのスケーリングでは,既定モードの多様性を犠牲にして,広く使用されているモデルが一般化されることがわかった。
また、DIMCIMを用いて、T2Iモデルのトレーニングデータを評価し、トレーニング画像の多様性とデフォルトモードの多様性との相関関係を0.85で観測する。
- 参考スコア(独自算出の注目度): 11.080727606381524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image (T2I) models have achieved impressive quality and consistency. However, this has come at the cost of representation diversity. While automatic evaluation methods exist for benchmarking model diversity, they either require reference image datasets or lack specificity about the kind of diversity measured, limiting their adaptability and interpretability. To address this gap, we introduce the Does-it/Can-it framework, DIM-CIM, a reference-free measurement of default-mode diversity ("Does" the model generate images with expected attributes?) and generalization capacity ("Can" the model generate diverse attributes for a particular concept?). We construct the COCO-DIMCIM benchmark, which is seeded with COCO concepts and captions and augmented by a large language model. With COCO-DIMCIM, we find that widely-used models improve in generalization at the cost of default-mode diversity when scaling from 1.5B to 8.1B parameters. DIMCIM also identifies fine-grained failure cases, such as attributes that are generated with generic prompts but are rarely generated when explicitly requested. Finally, we use DIMCIM to evaluate the training data of a T2I model and observe a correlation of 0.85 between diversity in training images and default-mode diversity. Our work provides a flexible and interpretable framework for assessing T2I model diversity and generalization, enabling a more comprehensive understanding of model performance.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの最近の進歩は、目覚ましい品質と一貫性を達成している。
しかし、これは表現の多様性を犠牲にしている。
モデルの多様性をベンチマークするための自動評価手法は存在するが、参照画像データセットを必要とするか、測定された多様性の種類に関する特異性を欠いているため、適応性と解釈性が制限されている。
このギャップに対処するために、Dod-it/Can-itフレームワーク、DIM-CIM、デフォルトモードの多様性の参照なし測定(モデルが期待する属性で画像を生成するか?)、一般化能力(モデルが特定の概念に対して多様な属性を生成するか?
我々はCOCOの概念とキャプションを組み込んだCOCO-DIMCIMベンチマークを構築し,大規模言語モデルで拡張した。
COCO-DIMCIMでは、1.5Bから8.1Bへのスケーリングにおいて、デフォルトモードの多様性を犠牲にして、広く使用されているモデルが一般化される。
DIMCIMはまた、ジェネリックプロンプトで生成されるが、明示的に要求された時に生成されることは滅多にない属性など、きめ細かい障害ケースも特定する。
最後に、DIMCIMを用いて、T2Iモデルのトレーニングデータを評価し、トレーニング画像の多様性とデフォルトモードの多様性との相関関係を0.85で観測する。
我々の研究は、T2Iモデルの多様性と一般化を評価するフレキシブルで解釈可能なフレームワークを提供し、モデル性能のより包括的な理解を可能にします。
関連論文リスト
- MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Image Generation Diversity Issues and How to Tame Them [8.858030256056095]
生成メソッドは、実際のデータとほとんど区別できない出力を生成するが、多くの場合、データの完全なキャプチャに失敗する。
本稿では、生成モデルにおける現在の多様性の欠如と、これを測定するための共通指標の欠如に留意する。
画像検索問題として多様性をフレーミングすることでこれを実現し、合成データを用いて実画像の検索回数をクエリとして測定する。
論文 参考訳(メタデータ) (2024-11-25T08:00:21Z) - GRADE: Quantifying Sample Diversity in Text-to-Image Models [66.12068246962762]
GRADEはテキスト・画像モデルにおけるサンプルの多様性を定量化する手法である。
GRADEを用いて、合計720K画像上の12種類のモデルの多様性を測定する。
論文 参考訳(メタデータ) (2024-10-29T23:10:28Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Diversity vs. Recognizability: Human-like generalization in one-shot
generative models [5.964436882344729]
サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。
まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。
対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
論文 参考訳(メタデータ) (2022-05-20T13:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。