論文の概要: M$^{3}$T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark
- arxiv url: http://arxiv.org/abs/2510.23020v1
- Date: Mon, 27 Oct 2025 05:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.461488
- Title: M$^{3}$T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark
- Title(参考訳): M$^{3}$T2IBench: 大規模マルチカテゴリ,マルチインスタンス,マルチリレーショナルテキスト画像ベンチマーク
- Authors: Huixuan Zhang, Xiaojun Wan,
- Abstract要約: 本稿では,M$3$T2IBench,大規模マルチカテゴリ,マルチインスタンス,マルチリレーション,オブジェクト検出に基づく評価指標である$AlignScore$を紹介する。
その結果,現在のオープンソーステキスト・ツー・イメージモデルでは,この挑戦的なベンチマークでは性能が低かったことが判明した。
画像テキストのアライメントを向上させるために,Revise-Then-Enforceアプローチを提案する。
- 参考スコア(独自算出の注目度): 39.51629719911405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image models are known to struggle with generating images that perfectly align with textual prompts. Several previous studies have focused on evaluating image-text alignment in text-to-image generation. However, these evaluations either address overly simple scenarios, especially overlooking the difficulty of prompts with multiple different instances belonging to the same category, or they introduce metrics that do not correlate well with human evaluation. In this study, we introduce M$^3$T2IBench, a large-scale, multi-category, multi-instance, multi-relation along with an object-detection-based evaluation metric, $AlignScore$, which aligns closely with human evaluation. Our findings reveal that current open-source text-to-image models perform poorly on this challenging benchmark. Additionally, we propose the Revise-Then-Enforce approach to enhance image-text alignment. This training-free post-editing method demonstrates improvements in image-text alignment across a broad range of diffusion models. \footnote{Our code and data has been released in supplementary material and will be made publicly available after the paper is accepted.}
- Abstract(参考訳): テキスト・ツー・イメージモデルは、テキスト・プロンプトと完全に一致した画像を生成するのに苦労していることが知られている。
従来,テキスト・ツー・イメージ生成における画像テキストアライメントの評価に焦点が当てられていた。
しかし、これらの評価は過度に単純なシナリオに対処し、特に同じカテゴリに属する複数の異なるインスタンスによるプロンプトの難しさを見越すか、あるいは人間の評価と相関しないメトリクスを導入するかのいずれかである。
本研究では,M$^3$T2IBench,大規模マルチカテゴリ,マルチインスタンス,マルチリレーション,オブジェクト検出に基づく評価指標である$AlignScore$を紹介する。
その結果,現在のオープンソーステキスト・ツー・イメージモデルでは,この挑戦的なベンチマークでは性能が低かったことが判明した。
さらに,画像テキストのアライメントを向上させるためのRevise-Then-Enforceアプローチを提案する。
このトレーニングフリーな後編集手法は、幅広い拡散モデルにわたる画像テキストアライメントの改善を実証する。
\footnote{Our code and data has released in supplementary material, will be public to be accepted after the paper.
※
関連論文リスト
- Bridging the Gap: Aligning Text-to-Image Diffusion Models with Specific Feedback [5.415802995586328]
フィードバックからの学習は、テキスト間拡散モデルにおけるテキストプロンプトと画像の整合性を高めることが示されている。
本稿では,3段階を含む特定の報酬目標を持つ効率的な微動法を提案する。
このベンチマークによる実験結果から,本モデルはアライメントと忠実度の両方において,他のSOTA法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-28T09:56:28Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。