論文の概要: Visual Programming for Text-to-Image Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2305.15328v1
- Date: Wed, 24 May 2023 16:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:23:26.030832
- Title: Visual Programming for Text-to-Image Generation and Evaluation
- Title(参考訳): テキスト・画像生成と評価のためのビジュアルプログラミング
- Authors: Jaemin Cho, Abhay Zala, Mohit Bansal
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
- 参考スコア(独自算出の注目度): 83.0924442074443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models have demonstrated impressive performance in many
domains, recent works have adopted language models (LMs) as controllers of
visual modules for vision-and-language tasks. While existing work focuses on
equipping LMs with visual understanding, we propose two novel
interpretable/explainable visual programming frameworks for text-to-image (T2I)
generation and evaluation. First, we introduce VPGen, an interpretable
step-by-step T2I generation framework that decomposes T2I generation into three
steps: object/count generation, layout generation, and image generation. We
employ an LM to handle the first two steps (object/count generation and layout
generation), by finetuning it on text-layout pairs. Our step-by-step T2I
generation framework provides stronger spatial control than end-to-end models,
the dominant approach for this task. Furthermore, we leverage the world
knowledge of pretrained LMs, overcoming the limitation of previous
layout-guided T2I works that can only handle predefined object classes. We
demonstrate that our VPGen has improved control in counts/spatial
relations/scales of objects than state-of-the-art T2I generation models.
Second, we introduce VPEval, an interpretable and explainable evaluation
framework for T2I generation based on visual programming. Unlike previous T2I
evaluations with a single scoring model that is accurate in some skills but
unreliable in others, VPEval produces evaluation programs that invoke a set of
visual modules that are experts in different skills, and also provides
visual+textual explanations of the evaluation results. Our analysis shows
VPEval provides a more human-correlated evaluation for skill-specific and
open-ended prompts than widely used single model-based evaluation. We hope our
work encourages future progress on interpretable/explainable generation and
evaluation for T2I models. Website: https://vp-t2i.github.io
- Abstract(参考訳): 多くのドメインで大きな言語モデルが印象的なパフォーマンスを示しているため、近年では視覚および言語タスクのためのビジュアルモジュールのコントローラとして言語モデル(lms)が採用されている。
既存の研究は、lmsを視覚的理解に活用することに焦点を当てているが、テキスト・ツー・イメージ(t2i)生成と評価のための2つの新しい解釈可能/説明可能なビジュアルプログラミングフレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
最初の2つのステップ(object/count生成とlayout生成)をテキストレイアウトペアで微調整するためにlmを使用します。
我々のステップバイステップT2I生成フレームワークは、エンドツーエンドモデルよりも強力な空間制御を提供する。
さらに、事前に定義されたオブジェクトクラスのみを扱うことができる以前のレイアウト誘導T2I作業の制限を克服し、事前訓練されたLMの世界知識を活用する。
我々のVPGenは、最先端のT2I生成モデルよりも、オブジェクトのカウント/空間関係/スケールの制御を改善したことを示す。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
従来のT2I評価と異なり、あるスキルでは正確だが他のスキルでは信頼性が低い単一のスコアリングモデルでは、VPEvalは異なるスキルの専門家である視覚モジュールのセットを呼び出す評価プログラムを生成し、評価結果の視覚的・テキスト的説明を提供する。
分析の結果、vpevalは、広く使われている単一モデルに基づく評価よりも、スキル固有のオープンエンドプロンプトに対して、より人間関係的な評価を提供していることがわかった。
我々は,T2Iモデルの解釈可能・説明可能な生成と評価の今後の進歩を期待する。
ウェブサイト:https://vp-t2i.github.io
関連論文リスト
- InstructBLIP: Towards General-purpose Vision-Language Models with
Instruction Tuning [43.54069813039309]
我々は,事前学習したBLIP-2モデルに基づいて,視覚言語による指導のチューニングについて検討する。
InstructBLIPモデルは、13の保持されたデータセットすべてに対して、最先端のゼロショットパフォーマンスを実現する。
私たちのモデルは、個々の下流タスクに微調整された場合、最先端のパフォーマンスももたらします。
論文 参考訳(メタデータ) (2023-05-11T00:38:10Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - DU-VLG: Unifying Vision-and-Language Generation via Dual
Sequence-to-Sequence Pre-training [37.15272352614968]
シーケンス生成問題として視覚・言語生成を統一するフレームワークであるDU-VLGを提案する。
Du-VLGは、マルチモーダルな自動エンコーダタスクとモダリティ変換タスクという、新しい2つの事前訓練タスクで訓練されている。
その結果, DU-VLGは一方向生成目標を訓練した変種や, コミットメント損失を伴わない変種よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-17T03:18:22Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。