論文の概要: Visual Programming for Text-to-Image Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2305.15328v2
- Date: Fri, 27 Oct 2023 01:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:08:23.018263
- Title: Visual Programming for Text-to-Image Generation and Evaluation
- Title(参考訳): テキスト・画像生成と評価のためのビジュアルプログラミング
- Authors: Jaemin Cho, Abhay Zala, Mohit Bansal
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
- 参考スコア(独自算出の注目度): 73.12069620086311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models have demonstrated impressive performance in many
domains, recent works have adopted language models (LMs) as controllers of
visual modules for vision-and-language tasks. While existing work focuses on
equipping LMs with visual understanding, we propose two novel
interpretable/explainable visual programming frameworks for text-to-image (T2I)
generation and evaluation. First, we introduce VPGen, an interpretable
step-by-step T2I generation framework that decomposes T2I generation into three
steps: object/count generation, layout generation, and image generation. We
employ an LM to handle the first two steps (object/count generation and layout
generation), by finetuning it on text-layout pairs. Our step-by-step T2I
generation framework provides stronger spatial control than end-to-end models,
the dominant approach for this task. Furthermore, we leverage the world
knowledge of pretrained LMs, overcoming the limitation of previous
layout-guided T2I works that can only handle predefined object classes. We
demonstrate that our VPGen has improved control in counts/spatial
relations/scales of objects than state-of-the-art T2I generation models.
Second, we introduce VPEval, an interpretable and explainable evaluation
framework for T2I generation based on visual programming. Unlike previous T2I
evaluations with a single scoring model that is accurate in some skills but
unreliable in others, VPEval produces evaluation programs that invoke a set of
visual modules that are experts in different skills, and also provides
visual+textual explanations of the evaluation results. Our analysis shows that
VPEval provides a more human-correlated evaluation for skill-specific and
open-ended prompts than widely used single model-based evaluation. We hope that
our work encourages future progress on interpretable/explainable generation and
evaluation for T2I models.
- Abstract(参考訳): 多くのドメインで大きな言語モデルが印象的なパフォーマンスを示しているため、近年では視覚および言語タスクのためのビジュアルモジュールのコントローラとして言語モデル(lms)が採用されている。
既存の研究は、lmsを視覚的理解に活用することに焦点を当てているが、テキスト・ツー・イメージ(t2i)生成と評価のための2つの新しい解釈可能/説明可能なビジュアルプログラミングフレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
最初の2つのステップ(object/count生成とlayout生成)をテキストレイアウトペアで微調整するためにlmを使用します。
我々のステップバイステップT2I生成フレームワークは、エンドツーエンドモデルよりも強力な空間制御を提供する。
さらに、事前に定義されたオブジェクトクラスのみを扱うことができる以前のレイアウト誘導T2I作業の制限を克服し、事前訓練されたLMの世界知識を活用する。
我々のVPGenは、最先端のT2I生成モデルよりも、オブジェクトのカウント/空間関係/スケールの制御を改善したことを示す。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
従来のT2I評価と異なり、あるスキルでは正確だが他のスキルでは信頼性が低い単一のスコアリングモデルでは、VPEvalは異なるスキルの専門家である視覚モジュールのセットを呼び出す評価プログラムを生成し、評価結果の視覚的・テキスト的説明を提供する。
分析の結果、vpevalは、広く使われている単一モデルに基づく評価よりも、スキル固有のオープンエンドプロンプトに対して、より人間関係的な評価を提供することがわかった。
T2Iモデルの解釈・説明可能な生成・評価の今後の進展を期待する。
関連論文リスト
- IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。
FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。
本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-01-23T18:58:33Z) - ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。
私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。
意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T18:58:07Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Learning Visual Generative Priors without Text [45.38392857514346]
I2I(Image-to-image)の生成について検討した。
我々のI2Iモデルは、より基礎的な視覚的先行として機能し、既存のT2Iモデルよりも高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T18:59:31Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。