論文の概要: Harnessing Caption Detailness for Data-Efficient Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.15172v1
- Date: Wed, 21 May 2025 06:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.015615
- Title: Harnessing Caption Detailness for Data-Efficient Text-to-Image Generation
- Title(参考訳): データ効率の良いテキスト・画像生成のためのハーネス化キャプション詳細性
- Authors: Xinran Wang, Muxi Diao, Yuanzhi Liu, Chunyu Wang, Kongming Liang, Zhanyu Ma, Jun Guo,
- Abstract要約: 詳細なキャプションを持つ訓練用テキスト・ツー・イメージ(T2I)モデルは、生成品質を著しく向上させることができる。
既存の方法は、T2Iトレーニングセットのキャプションの細部を表すためにキャプションの長さのような単純なメトリクスに依存することが多い。
画像カバレッジ率(ICR)と平均オブジェクト詳細度(AOD)の2つの側面からキャプション詳細度を推定する新しい指標を提案する。
- 参考スコア(独自算出の注目度): 37.846915788256204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training text-to-image (T2I) models with detailed captions can significantly improve their generation quality. Existing methods often rely on simplistic metrics like caption length to represent the detailness of the caption in the T2I training set. In this paper, we propose a new metric to estimate caption detailness based on two aspects: image coverage rate (ICR), which evaluates whether the caption covers all regions/objects in the image, and average object detailness (AOD), which quantifies the detailness of each object's description. Through experiments on the COCO dataset using ShareGPT4V captions, we demonstrate that T2I models trained on high-ICR and -AOD captions achieve superior performance on DPG and other benchmarks. Notably, our metric enables more effective data selection-training on only 20% of full data surpasses both full-dataset training and length-based selection method, improving alignment and reconstruction ability. These findings highlight the critical role of detail-aware metrics over length-based heuristics in caption selection for T2I tasks.
- Abstract(参考訳): 詳細なキャプションを持つ訓練用テキスト・ツー・イメージ(T2I)モデルは、生成品質を著しく向上させることができる。
既存の方法は、T2Iトレーニングセットのキャプションの細部を表すためにキャプションの長さのような単純なメトリクスに依存することが多い。
本稿では,画像のすべての領域/オブジェクトをカバーするキャプションの評価を行う画像カバレッジ率(ICR)と,各オブジェクト記述の細部を定量化する平均オブジェクト詳細度(AOD)の2つの側面に基づいて,キャプションの細部を推定する新しい指標を提案する。
ShareGPT4Vキャプションを用いたCOCOデータセットの実験を通じて、高ICRおよび-AODキャプションでトレーニングされたT2Iモデルが、DPGや他のベンチマーク上で優れた性能を発揮することを示す。
特に,全データの20%に留まらず,より効果的なデータ選択訓練が可能であり,アライメントと再構築能力の向上が期待できる。
これらの結果から,T2Iタスクのキャプション選択において,長さに基づくヒューリスティックスよりも詳細な指標が重要であることが示唆された。
関連論文リスト
- Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。