論文の概要: Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models
- arxiv url: http://arxiv.org/abs/2409.10695v1
- Date: Mon, 16 Sep 2024 19:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 18:50:48.012822
- Title: Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models
- Title(参考訳): Playground v3: 大規模言語モデルによるテキストと画像のアライメントの改善
- Authors: Bingchen Liu, Ehsan Akhgari, Alexander Visheratin, Aleks Kamko, Linmiao Xu, Shivam Shrirao, Joao Souza, Suhail Doshi, Daiqing Li,
- Abstract要約: 最新のテキスト・画像モデルであるPlayground v3(PGv3)を紹介します。
複数のテストベンチマークで最先端(SoTA)パフォーマンスを実現している。
テキストプロンプトの順守、複雑な推論、正確なテキストレンダリングが優れている。
- 参考スコア(独自算出の注目度): 39.67629056364142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Playground v3 (PGv3), our latest text-to-image model that achieves state-of-the-art (SoTA) performance across multiple testing benchmarks, excels in graphic design abilities and introduces new capabilities. Unlike traditional text-to-image generative models that rely on pre-trained language models like T5 or CLIP text encoders, our approach fully integrates Large Language Models (LLMs) with a novel structure that leverages text conditions exclusively from a decoder-only LLM. Additionally, to enhance image captioning quality-we developed an in-house captioner, capable of generating captions with varying levels of detail, enriching the diversity of text structures. We also introduce a new benchmark CapsBench to evaluate detailed image captioning performance. Experimental results demonstrate that PGv3 excels in text prompt adherence, complex reasoning, and accurate text rendering. User preference studies indicate the super-human graphic design ability of our model for common design applications, such as stickers, posters, and logo designs. Furthermore, PGv3 introduces new capabilities, including precise RGB color control and robust multilingual understanding.
- Abstract(参考訳): Playground v3(PGv3)は、複数のテストベンチマークにまたがって最先端(SoTA)のパフォーマンスを実現し、グラフィック設計能力に優れ、新しい機能を導入しています。
T5やCLIPテキストエンコーダのような事前訓練された言語モデルに依存する従来のテキスト・ツー・イメージ生成モデルとは異なり、我々のアプローチは大規模言語モデル(LLM)をデコーダのみのLLMからのみテキスト条件を活用する新しい構造と完全に統合する。
さらに、画像キャプションの質を高めるために、様々なレベルの詳細でキャプションを生成し、テキスト構造の多様性を豊かにする社内キャプションキャプタを開発した。
また、画像キャプションの詳細な性能を評価するために、新しいベンチマークCapsBenchを導入する。
実験の結果,PGv3はテキストのアペンデンス,複雑な推論,正確なテキストレンダリングに優れていた。
ユーザの嗜好調査は、ステッカー、ポスター、ロゴデザインなど、一般的なデザイン応用のための、我々のモデルの超人的なグラフィックデザイン能力を示している。
さらにPGv3では、正確なRGB色制御や堅牢な多言語理解など、新しい機能が導入されている。
関連論文リスト
- Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。