論文の概要: Beyond Overcorrection: Evaluating Diversity in T2I Models with DivBench
- arxiv url: http://arxiv.org/abs/2507.03015v2
- Date: Thu, 10 Jul 2025 09:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.049401
- Title: Beyond Overcorrection: Evaluating Diversity in T2I Models with DivBench
- Title(参考訳): オーバーコレクションを超えて - DivBenchによるT2Iモデルの多様性評価
- Authors: Felix Friedrich, Thiemo Ganesha Welsch, Manuel Brack, Patrick Schramowski, Kristian Kersting,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルの現在の多様化戦略は、しばしば文脈的適切さを無視し、過度な多様化につながる。
本稿では,T2I 生成における過度および過度な分散度を測定するためのベンチマークおよび評価フレームワークである DIVBENCH を紹介する。
- 参考スコア(独自算出の注目度): 26.148022772521493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current diversification strategies for text-to-image (T2I) models often ignore contextual appropriateness, leading to over-diversification where demographic attributes are modified even when explicitly specified in prompts. This paper introduces DIVBENCH, a benchmark and evaluation framework for measuring both under- and over-diversification in T2I generation. Through systematic evaluation of state-of-the-art T2I models, we find that while most models exhibit limited diversity, many diversification approaches overcorrect by inappropriately altering contextually-specified attributes. We demonstrate that context-aware methods, particularly LLM-guided FairDiffusion and prompt rewriting, can already effectively address under-diversity while avoiding over-diversification, achieving a better balance between representation and semantic fidelity.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルの現在の多様化戦略は、しばしば文脈的適切さを無視し、プロンプトで明示的に指定された場合でも、人口統計属性が修正される過度に分散化される。
本稿では,T2I 生成における過度および過度な分散度を測定するためのベンチマークおよび評価フレームワークである DIVBENCH を紹介する。
現状のT2Iモデルの体系的評価により、ほとんどのモデルは多様性に制限があるが、多くの多様化アプローチは、文脈的に特定された属性を不適切に変更することで過度に修正されていることがわかった。
文脈認識手法、特にLLM誘導のFairDiffusionと即時書き直しは、過剰な多様性を回避しつつ、表現と意味の忠実さのバランスを良好に保ちながら、既に効果的に下限に対処できることを実証する。
関連論文リスト
- DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models [11.080727606381524]
我々は、デフォルトモードの多様性を基準無しで測定するDod-it/Can-itフレームワーク、DIM-CIMを紹介する。
1.5Bから8.1Bパラメータへのスケーリングでは,既定モードの多様性を犠牲にして,広く使用されているモデルが一般化されることがわかった。
また、DIMCIMを用いて、T2Iモデルのトレーニングデータを評価し、トレーニング画像の多様性とデフォルトモードの多様性との相関関係を0.85で観測する。
論文 参考訳(メタデータ) (2025-06-05T14:53:34Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Prompt as Free Lunch: Enhancing Diversity in Source-Free Cross-domain Few-shot Learning through Semantic-Guided Prompting [9.116108409344177]
ソースフリーのクロスドメイン数ショット学習タスクは、最小限のサンプルを使用して、トレーニング済みのモデルをターゲットのドメインに転送することを目的としている。
本稿では2つのフェーズに分けられるSeGD-VPTフレームワークを提案する。
最初のステップは、各サポートサンプルに多様性プロンプトを追加し、様々な入力を生成し、サンプルの多様性を高めることで、機能の多様性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-01T11:00:38Z) - GRADE: Quantifying Sample Diversity in Text-to-Image Models [66.12068246962762]
GRADEはテキスト・画像モデルにおけるサンプルの多様性を定量化する手法である。
GRADEを用いて、合計720K画像上の12種類のモデルの多様性を測定する。
論文 参考訳(メタデータ) (2024-10-29T23:10:28Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
我々は、推論中に所望のプロパティの出現を促すオンラインプロンプト最適化フレームワークを開発する。
次に、この一般的なプロンプト分布を、マイノリティな特徴の生成を促進する特別な解法へと調整する。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - IFDID: Information Filter upon Diversity-Improved Decoding for Diversity-Faithfulness Tradeoff in NLG [5.771099867942164]
本稿では、多様性と忠実性のトレードオフを得るために、多様性改善復号化情報フィルタ(IFDID)を提案する。
提案手法では, 忠実度を表すROUGEスコアが1.24高く, Dist-2では62.5%の多様性が従来の手法よりも高い。
論文 参考訳(メタデータ) (2022-10-25T08:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。