論文の概要: Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2403.07860v1
- Date: Tue, 12 Mar 2024 17:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 19:48:37.770249
- Title: Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のための異なる言語モデルと生成視覚モデル
- Authors: Shihao Zhao, Shaozhe Hao, Bojia Zi, Huaizhe Xu, Kwan-Yee K. Wong
- Abstract要約: テキスト・ツー・イメージ生成のための多種多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
私たちのパイプラインは、様々な言語モデルと生成視覚モデルと互換性があり、異なる構造を収容しています。
- 参考スコア(独自算出の注目度): 12.024554708901514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation has made significant advancements with the
introduction of text-to-image diffusion models. These models typically consist
of a language model that interprets user prompts and a vision model that
generates corresponding images. As language and vision models continue to
progress in their respective domains, there is a great potential in exploring
the replacement of components in text-to-image diffusion models with more
advanced counterparts. A broader research objective would therefore be to
investigate the integration of any two unrelated language and generative vision
models for text-to-image generation. In this paper, we explore this objective
and propose LaVi-Bridge, a pipeline that enables the integration of diverse
pre-trained language models and generative vision models for text-to-image
generation. By leveraging LoRA and adapters, LaVi-Bridge offers a flexible and
plug-and-play approach without requiring modifications to the original weights
of the language and vision models. Our pipeline is compatible with various
language models and generative vision models, accommodating different
structures. Within this framework, we demonstrate that incorporating superior
modules, such as more advanced language models or generative vision models,
results in notable improvements in capabilities like text alignment or image
quality. Extensive evaluations have been conducted to verify the effectiveness
of LaVi-Bridge. Code is available at
https://github.com/ShihaoZhaoZSH/LaVi-Bridge.
- Abstract(参考訳): テキストから画像への拡散モデルの導入により、テキストから画像への生成は大幅に進歩した。
これらのモデルは通常、ユーザのプロンプトを解釈する言語モデルと、対応する画像を生成するビジョンモデルで構成される。
言語モデルと視覚モデルがそれぞれの領域で進歩を続けるにつれ、テキストから画像への拡散モデルにおけるコンポーネントの置き換えを、より先進的な領域で探究する大きな可能性がある。
それゆえ、より広い研究の目的は、テキスト対画像生成のための2つの無関係言語と生成的ビジョンモデルの統合を検討することである。
本稿では,テキスト・ツー・イメージ生成のための多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
LoRAとアダプタを活用することで、LaVi-Bridgeは、言語やビジョンモデルのオリジナルの重みを変更することなく、柔軟でプラグアンドプレイなアプローチを提供する。
パイプラインは様々な言語モデルや生成視覚モデルと互換性があり、異なる構造を収容しています。
このフレームワーク内では、より高度な言語モデルや生成視覚モデルのような優れたモジュールを組み込むことで、テキストアライメントや画像品質などの顕著な改善が達成されることを示す。
LaVi-Bridgeの有効性を検証するために大規模な評価を行った。
コードはhttps://github.com/ShihaoZhaoZSH/LaVi-Bridgeで入手できる。
関連論文リスト
- VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.10710554358455]
PaLI(Pathways Language and Image Model)は、このアプローチを言語と視覚の合同モデリングに拡張するモデルである。
我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文 参考訳(メタデータ) (2022-09-14T17:24:07Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visual Conceptual Blending with Large-scale Language and Vision Models [54.251383721475655]
言語モデルを用いて2つのブレンドの単一文記述を生成する。
テキストベース画像生成モデルを用いてブレンドの視覚的描写を生成する。
論文 参考訳(メタデータ) (2021-06-27T02:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。