論文の概要: Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2403.07860v1
- Date: Tue, 12 Mar 2024 17:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 19:48:37.770249
- Title: Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のための異なる言語モデルと生成視覚モデル
- Authors: Shihao Zhao, Shaozhe Hao, Bojia Zi, Huaizhe Xu, Kwan-Yee K. Wong
- Abstract要約: テキスト・ツー・イメージ生成のための多種多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
私たちのパイプラインは、様々な言語モデルと生成視覚モデルと互換性があり、異なる構造を収容しています。
- 参考スコア(独自算出の注目度): 12.024554708901514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation has made significant advancements with the
introduction of text-to-image diffusion models. These models typically consist
of a language model that interprets user prompts and a vision model that
generates corresponding images. As language and vision models continue to
progress in their respective domains, there is a great potential in exploring
the replacement of components in text-to-image diffusion models with more
advanced counterparts. A broader research objective would therefore be to
investigate the integration of any two unrelated language and generative vision
models for text-to-image generation. In this paper, we explore this objective
and propose LaVi-Bridge, a pipeline that enables the integration of diverse
pre-trained language models and generative vision models for text-to-image
generation. By leveraging LoRA and adapters, LaVi-Bridge offers a flexible and
plug-and-play approach without requiring modifications to the original weights
of the language and vision models. Our pipeline is compatible with various
language models and generative vision models, accommodating different
structures. Within this framework, we demonstrate that incorporating superior
modules, such as more advanced language models or generative vision models,
results in notable improvements in capabilities like text alignment or image
quality. Extensive evaluations have been conducted to verify the effectiveness
of LaVi-Bridge. Code is available at
https://github.com/ShihaoZhaoZSH/LaVi-Bridge.
- Abstract(参考訳): テキストから画像への拡散モデルの導入により、テキストから画像への生成は大幅に進歩した。
これらのモデルは通常、ユーザのプロンプトを解釈する言語モデルと、対応する画像を生成するビジョンモデルで構成される。
言語モデルと視覚モデルがそれぞれの領域で進歩を続けるにつれ、テキストから画像への拡散モデルにおけるコンポーネントの置き換えを、より先進的な領域で探究する大きな可能性がある。
それゆえ、より広い研究の目的は、テキスト対画像生成のための2つの無関係言語と生成的ビジョンモデルの統合を検討することである。
本稿では,テキスト・ツー・イメージ生成のための多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
LoRAとアダプタを活用することで、LaVi-Bridgeは、言語やビジョンモデルのオリジナルの重みを変更することなく、柔軟でプラグアンドプレイなアプローチを提供する。
パイプラインは様々な言語モデルや生成視覚モデルと互換性があり、異なる構造を収容しています。
このフレームワーク内では、より高度な言語モデルや生成視覚モデルのような優れたモジュールを組み込むことで、テキストアライメントや画像品質などの顕著な改善が達成されることを示す。
LaVi-Bridgeの有効性を検証するために大規模な評価を行った。
コードはhttps://github.com/ShihaoZhaoZSH/LaVi-Bridgeで入手できる。
関連論文リスト
- Elucidating the design space of language models for image generation [13.96798987912677]
画像トークンはテキストトークンと比較してランダム性が高いことを示す。
また, 画像生成における局所的情報の重要性を, 全てのモデルで把握できたが, より小さなモデルでは, グローバルな文脈を捉えるのに苦労していることがわかった。
我々の研究は、視覚生成における言語モデルの最適化挙動を初めて分析し、他の領域にLMを適用する際に、より効果的な設計を刺激できると考えている。
論文 参考訳(メタデータ) (2024-10-21T17:57:04Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visual Conceptual Blending with Large-scale Language and Vision Models [54.251383721475655]
言語モデルを用いて2つのブレンドの単一文記述を生成する。
テキストベース画像生成モデルを用いてブレンドの視覚的描写を生成する。
論文 参考訳(メタデータ) (2021-06-27T02:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。