論文の概要: Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.11831v2
- Date: Fri, 21 Jun 2024 05:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:47:43.641943
- Title: Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models
- Title(参考訳): 拡散モデルのプロンプト符号化における大規模言語モデルの役割を探る
- Authors: Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu,
- Abstract要約: デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。
LLMの能力をフル活用するための新しいフレームワークを提案する。
さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
- 参考スコア(独自算出の注目度): 42.891427362223176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) based on decoder-only transformers have demonstrated superior text understanding capabilities compared to CLIP and T5-series models. However, the paradigm for utilizing current advanced LLMs in text-to-image diffusion models remains to be explored. We observed an unusual phenomenon: directly using a large language model as the prompt encoder significantly degrades the prompt-following ability in image generation. We identified two main obstacles behind this issue. One is the misalignment between the next token prediction training in LLM and the requirement for discriminative prompt features in diffusion models. The other is the intrinsic positional bias introduced by the decoder-only architecture. To deal with this issue, we propose a novel framework to fully harness the capabilities of LLMs. Through the carefully designed usage guidance, we effectively enhance the text representation capability for prompt encoding and eliminate its inherent positional bias. This allows us to integrate state-of-the-art LLMs into the text-to-image generation model flexibly. Furthermore, we also provide an effective manner to fuse multiple LLMs into our framework. Considering the excellent performance and scaling capabilities demonstrated by the transformer architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT) based on the framework. We conduct extensive experiments to validate LI-DiT across model size and data size. Benefiting from the inherent ability of the LLMs and our innovative designs, the prompt understanding performance of LI-DiT easily surpasses state-of-the-art open-source models as well as mainstream closed-source commercial models including Stable Diffusion 3, DALL-E 3, and Midjourney V6. The powerful LI-DiT-10B will be available through the online platform and API after further optimization and security checks.
- Abstract(参考訳): デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、CLIPやT5シリーズモデルと比較して、優れたテキスト理解能力を示している。
しかし,テキストから画像への拡散モデルにおいて,現在進行しているLCMを利用するためのパラダイムについて検討する。
我々は,プロンプトエンコーダとして大規模言語モデルを直接使用することにより,画像生成におけるプロンプト追従能力を著しく低下させるという異常な現象を観察した。
私たちはこの問題の主な障害を2つ挙げた。
一つは、LLMにおける次のトークン予測トレーニングと拡散モデルにおける識別的プロンプト特徴の要求との相違である。
もう1つは、デコーダのみのアーキテクチャによって導入された本質的な位置バイアスである。
この問題に対処するために,LLMの能力をフル活用するための新しいフレームワークを提案する。
慎重に設計された利用指導を通じて、エンコーディングを促進し、その固有の位置バイアスを排除するためのテキスト表現能力を効果的に強化する。
これにより、最先端のLCMをテキスト・画像生成モデルに柔軟に統合することができる。
さらに,フレームワークに複数のLSMを融合させる効果的な方法も提供する。
トランスアーキテクチャが示す優れた性能とスケーリング機能を考慮すると,LLM-Infused Diffusion Transformer (LI-DiT) をさらに設計する。
モデルサイズとデータサイズにまたがるLI-DiTの検証を行う。
LI-DiTの即時理解性能は,LLMの本質的な能力や革新的な設計に特化して,現状のオープンソースモデルや,DALL-E 3 やMidjourney V6 といった主流のクローズドソースの商用モデルに勝る。
強力なLI-DiT-10Bは、さらなる最適化とセキュリティチェックの後、オンラインプラットフォームとAPIを通じて利用可能になる。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文 参考訳(メタデータ) (2024-04-09T02:51:05Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - DeTiME: Diffusion-Enhanced Topic Modeling using Encoder-decoder based
LLM [2.8233611508673]
本研究は拡散強化トピックモデリングという新しいフレームワークを導入することでギャップを解消する。
拡散モデルのパワーを活用することで、我々のフレームワークはトピックベースのテキスト生成を行う能力も提供する。
論文 参考訳(メタデータ) (2023-10-23T19:03:04Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。