Fugu-MT 論文翻訳(概要): SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

論文の概要: SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

arxiv url: http://arxiv.org/abs/2305.05189v4
Date: Wed, 29 Nov 2023 08:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 01:05:05.523521
Title: SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models
Title（参考訳）: SUR-adapter: 大規模言語モデルを用いたテキスト・画像間の事前学習拡散モデルの実現
Authors: Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin
Abstract要約: 本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
参考スコア（独自算出の注目度）: 56.88192537044364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models, which have emerged to become popular text-to-image generation models, can produce high-quality and content-rich images guided by textual prompts. However, there are limitations to semantic understanding and commonsense reasoning in existing models when the input prompts are concise narrative, resulting in low-quality image generation. To improve the capacities for narrative prompts, we propose a simple-yet-effective parameter-efficient fine-tuning approach called the Semantic Understanding and Reasoning adapter (SUR-adapter) for pre-trained diffusion models. To reach this goal, we first collect and annotate a new dataset SURD which consists of more than 57,000 semantically corrected multi-modal samples. Each sample contains a simple narrative prompt, a complex keyword-based prompt, and a high-quality image. Then, we align the semantic representation of narrative prompts to the complex prompts and transfer knowledge of large language models (LLMs) to our SUR-adapter via knowledge distillation so that it can acquire the powerful semantic understanding and reasoning capabilities to build a high-quality textual semantic representation for text-to-image generation. We conduct experiments by integrating multiple LLMs and popular pre-trained diffusion models to show the effectiveness of our approach in enabling diffusion models to understand and reason concise natural language without image quality degradation. Our approach can make text-to-image diffusion models easier to use with better user experience, which demonstrates our approach has the potential for further advancing the development of user-friendly text-to-image generation models by bridging the semantic gap between simple narrative prompts and complex keyword-based prompts. The code is released at https://github.com/Qrange-group/SUR-adapter.
Abstract（参考訳）: 拡散モデルは、テキスト対画像生成モデルとして人気を博し、テキストプロンプトによって導かれる高品質でコンテンツに富んだ画像を生成することができる。しかし、入力プロンプトが簡潔なナラティブである場合、既存のモデルでは意味理解と常識推論に制限があり、結果として低品質の画像を生成する。物語のプロンプトのキャパシティを向上させるために,事前学習した拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる単純なパラメータ効率の良い微調整手法を提案する。この目標を達成するために、まず57,000以上の意味的に修正されたマルチモーダルサンプルからなる新しいデータセットSURDを収集、注釈付けします。各サンプルには単純なナラティブプロンプト、複雑なキーワードベースのプロンプト、高品質の画像が含まれている。次に, 物語プロンプトの意味表現を複雑なプロンプトに整合させ, 大規模言語モデル(llm)の知識を知識蒸留により超適応者に伝達することで, テキストから画像への高品質な意味表現を構築するための強力な意味理解と推論能力を得る。画像品質の劣化を伴わない簡潔な自然言語の理解と推論を可能にするために,複数のLLMと一般的な事前学習拡散モデルを統合する実験を行った。提案手法は,ユーザフレンドリーなテキスト・ツー・イメージ生成モデルの開発を,単純な物語のプロンプトと複雑なキーワードベースのプロンプトのセマンティックギャップを埋めることによって促進する可能性を示した。コードはhttps://github.com/qrange-group/sur-adapterでリリースされる。

関連論文リスト

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [31.31018600797305]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文参考訳（メタデータ） (2025-06-03T16:44:15Z)
Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文参考訳（メタデータ） (2024-11-22T21:38:51Z)
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。 7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文参考訳（メタデータ） (2024-06-30T15:50:32Z)
ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。 MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文参考訳（メタデータ） (2024-06-17T19:31:24Z)
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment [20.868216061750402]
LLM(Large Language Models)とテキスト・画像拡散モデルを組み合わせた高能率大言語モデル適応器 ELLA を導入する。提案手法は, 分割過程の異なる段階における意味的特徴に適応し, サンプリングタイムステップよりも長大かつ複雑なプロンプトを解釈する拡散モデルを支援する。濃密なプロンプトにおけるテキスト・ツー・イメージのモデルを評価するために、1Kの濃密なプロンプトからなる挑戦的なベンチマークを導入する。
論文参考訳（メタデータ） (2024-03-08T08:08:10Z)
Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文参考訳（メタデータ） (2024-01-12T03:46:29Z)
Image Captions are Natural Prompts for Text-to-Image Models [53.529592120988]
テキストから画像への生成モデルでは,手作りのプロンプトで情報学習データを合成することは困難である。我々は,ImageNet分類によって検証された,シンプルで効果的な手法を提案する。この単純なキャプションは,合成データの情報性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-07-17T14:38:11Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文参考訳（メタデータ） (2023-03-03T18:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。