Fugu-MT 論文翻訳(概要): T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

論文の概要: T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

arxiv url: http://arxiv.org/abs/2307.06350v2
Date: Mon, 30 Oct 2023 11:42:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 23:18:05.536294
Title: T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation
Title（参考訳）: T2I-CompBench: オープンワールドコンポジションテキスト画像生成のための総合ベンチマーク
Authors: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
Abstract要約: T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
参考スコア（独自算出の注目度）: 62.71574695256264
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the stunning ability to generate high-quality images by recent text-to-image models, current approaches often struggle to effectively compose objects with different attributes and relationships into a complex and coherent scene. We propose T2I-CompBench, a comprehensive benchmark for open-world compositional text-to-image generation, consisting of 6,000 compositional text prompts from 3 categories (attribute binding, object relationships, and complex compositions) and 6 sub-categories (color binding, shape binding, texture binding, spatial relationships, non-spatial relationships, and complex compositions). We further propose several evaluation metrics specifically designed to evaluate compositional text-to-image generation and explore the potential and limitations of multimodal LLMs for evaluation. We introduce a new approach, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), to boost the compositional text-to-image generation abilities of pretrained text-to-image models. Extensive experiments and evaluations are conducted to benchmark previous methods on T2I-CompBench, and to validate the effectiveness of our proposed evaluation metrics and GORS approach. Project page is available at https://karine-h.github.io/T2I-CompBench/.
Abstract（参考訳）: 最近のテキストから画像へのモデルによって高品質な画像を生成する素晴らしい能力にもかかわらず、現在のアプローチでは、異なる属性と関係を持つオブジェクトを複雑で一貫性のあるシーンに効果的に構成するのに苦労することが多い。 T2I-CompBenchは3つのカテゴリ(属性バインディング、オブジェクト関係、複雑な構成)と6つのサブカテゴリ(カラーバインディング、形状バインディング、テクスチャバインディング、空間関係、非空間関係、複雑な構成)から6000のコンポジションテキストプロンプトからなるオープンワールドコンポジションテキスト画像生成のための総合ベンチマークである。さらに,合成テキストから画像への生成を評価するために特別に設計された評価指標をいくつか提案し,マルチモーダルllmの可能性と限界について検討する。本稿では,プリトレーニングされたテキスト対画像モデルの合成テキスト生成能力を高めるために,報酬駆動サンプル選択(gors)による生成モデルの微調整を提案する。従来のt2i-compbench法をベンチマークし,提案手法の有効性を検証するため,広範な実験と評価を行った。プロジェクトページはhttps://karine-h.github.io/t2i-compbench/。

関連論文リスト

DeCoT: Decomposing Complex Instructions for Enhanced Text-to-Image Generation with Large Language Models [9.800887055353096]
本稿では,T2Iモデルの複雑な命令の理解と実行を強化するフレームワークであるDeCoT(Decomposition-CoT)を提案する。 LongBench-T2Iデータセットの大規模な実験は、DeCoTが一貫し、主要なT2Iモデルの性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-08-17T15:15:39Z)
TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。 TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。 T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文参考訳（メタデータ） (2025-06-02T18:44:07Z)
Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。 LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。 Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文参考訳（メタデータ） (2025-05-30T16:48:14Z)
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models [42.91502354577658]
MMIG-Benchは総合的なマルチモーダル画像生成ベンチマークである。 4,850件の注釈付きテキストプロンプトと380件の被験者に1,750件のマルチビュー参照イメージをペアリングする。 MMIG-Benchを用いて、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークする。
論文参考訳（メタデータ） (2025-05-26T02:07:24Z)
CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文参考訳（メタデータ） (2025-05-16T12:23:58Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。 ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。 ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文参考訳（メタデータ） (2024-11-26T07:55:57Z)
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。 7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文参考訳（メタデータ） (2024-06-30T15:50:32Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Divide and Conquer: Language Models can Plan and Self-Correct for Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文参考訳（メタデータ） (2024-01-28T16:18:39Z)
A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文参考訳（メタデータ） (2023-12-04T20:47:48Z)
OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation [151.57313182844936]
本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
論文参考訳（メタデータ） (2023-10-11T17:58:33Z)
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文参考訳（メタデータ） (2023-09-26T17:58:20Z)
Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。 20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文参考訳（メタデータ） (2022-11-22T09:27:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。