論文の概要: Visual Programming for Text-to-Image Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2305.15328v2
- Date: Fri, 27 Oct 2023 01:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:08:23.018263
- Title: Visual Programming for Text-to-Image Generation and Evaluation
- Title(参考訳): テキスト・画像生成と評価のためのビジュアルプログラミング
- Authors: Jaemin Cho, Abhay Zala, Mohit Bansal
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
- 参考スコア(独自算出の注目度): 73.12069620086311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models have demonstrated impressive performance in many
domains, recent works have adopted language models (LMs) as controllers of
visual modules for vision-and-language tasks. While existing work focuses on
equipping LMs with visual understanding, we propose two novel
interpretable/explainable visual programming frameworks for text-to-image (T2I)
generation and evaluation. First, we introduce VPGen, an interpretable
step-by-step T2I generation framework that decomposes T2I generation into three
steps: object/count generation, layout generation, and image generation. We
employ an LM to handle the first two steps (object/count generation and layout
generation), by finetuning it on text-layout pairs. Our step-by-step T2I
generation framework provides stronger spatial control than end-to-end models,
the dominant approach for this task. Furthermore, we leverage the world
knowledge of pretrained LMs, overcoming the limitation of previous
layout-guided T2I works that can only handle predefined object classes. We
demonstrate that our VPGen has improved control in counts/spatial
relations/scales of objects than state-of-the-art T2I generation models.
Second, we introduce VPEval, an interpretable and explainable evaluation
framework for T2I generation based on visual programming. Unlike previous T2I
evaluations with a single scoring model that is accurate in some skills but
unreliable in others, VPEval produces evaluation programs that invoke a set of
visual modules that are experts in different skills, and also provides
visual+textual explanations of the evaluation results. Our analysis shows that
VPEval provides a more human-correlated evaluation for skill-specific and
open-ended prompts than widely used single model-based evaluation. We hope that
our work encourages future progress on interpretable/explainable generation and
evaluation for T2I models.
- Abstract(参考訳): 多くのドメインで大きな言語モデルが印象的なパフォーマンスを示しているため、近年では視覚および言語タスクのためのビジュアルモジュールのコントローラとして言語モデル(lms)が採用されている。
既存の研究は、lmsを視覚的理解に活用することに焦点を当てているが、テキスト・ツー・イメージ(t2i)生成と評価のための2つの新しい解釈可能/説明可能なビジュアルプログラミングフレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
最初の2つのステップ(object/count生成とlayout生成)をテキストレイアウトペアで微調整するためにlmを使用します。
我々のステップバイステップT2I生成フレームワークは、エンドツーエンドモデルよりも強力な空間制御を提供する。
さらに、事前に定義されたオブジェクトクラスのみを扱うことができる以前のレイアウト誘導T2I作業の制限を克服し、事前訓練されたLMの世界知識を活用する。
我々のVPGenは、最先端のT2I生成モデルよりも、オブジェクトのカウント/空間関係/スケールの制御を改善したことを示す。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
従来のT2I評価と異なり、あるスキルでは正確だが他のスキルでは信頼性が低い単一のスコアリングモデルでは、VPEvalは異なるスキルの専門家である視覚モジュールのセットを呼び出す評価プログラムを生成し、評価結果の視覚的・テキスト的説明を提供する。
分析の結果、vpevalは、広く使われている単一モデルに基づく評価よりも、スキル固有のオープンエンドプロンプトに対して、より人間関係的な評価を提供することがわかった。
T2Iモデルの解釈・説明可能な生成・評価の今後の進展を期待する。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models [18.259733507395634]
VLEU(Visual Language Evaluation Understudy)と呼ばれる新しい指標を導入する。
VLEUは、視覚テキストの限界分布とモデルが生成した画像の条件分布との間のクルバック・リーバーの偏差を計算することにより、モデルの一般化可能性を定量化する。
本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を示す。
論文 参考訳(メタデータ) (2024-09-23T04:50:36Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - DU-VLG: Unifying Vision-and-Language Generation via Dual
Sequence-to-Sequence Pre-training [37.15272352614968]
シーケンス生成問題として視覚・言語生成を統一するフレームワークであるDU-VLGを提案する。
Du-VLGは、マルチモーダルな自動エンコーダタスクとモダリティ変換タスクという、新しい2つの事前訓練タスクで訓練されている。
その結果, DU-VLGは一方向生成目標を訓練した変種や, コミットメント損失を伴わない変種よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-17T03:18:22Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。