論文の概要: LLMGA: Multimodal Large Language Model based Generation Assistant
- arxiv url: http://arxiv.org/abs/2311.16500v1
- Date: Mon, 27 Nov 2023 13:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:00:03.218630
- Title: LLMGA: Multimodal Large Language Model based Generation Assistant
- Title(参考訳): LLMGA:マルチモーダル大言語モデルに基づく生成アシスタント
- Authors: Bin Xia, Shiyin Wang, Yingfan Tao, Yitong Wang, and Jiaya Jia
- Abstract要約: 本稿では,LLMGA(Multimodal Large Language Model-based Generation Assistant)を提案する。
LLMGAは、安定拡散(SD)を正確に制御するための詳細な言語生成プロンプトを提供する。
第1段階では、画像生成と編集の特性を把握できるようにMLLMを訓練し、詳細なプロンプトを生成する。
第2段階では、SDを最適化してMLLMの生成プロンプトに合わせる。
- 参考スコア(独自算出の注目度): 53.150283805515926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a Multimodal Large Language Model-based
Generation Assistant (LLMGA), leveraging the vast reservoir of knowledge and
proficiency in reasoning, comprehension, and response inherent in Large
Language Models (LLMs) to assist users in image generation and editing.
Diverging from existing approaches where Multimodal Large Language Models
(MLLMs) generate fixed-size embeddings to control Stable Diffusion (SD), our
LLMGA provides a detailed language generation prompt for precise control over
SD. This not only augments LLM context understanding but also reduces noise in
generation prompts, yields images with more intricate and precise content, and
elevates the interpretability of the network. To this end, we curate a
comprehensive dataset comprising prompt refinement, similar image generation,
inpainting $\&$ outpainting, and visual question answering. Moreover, we
propose a two-stage training scheme. In the first stage, we train the MLLM to
grasp the properties of image generation and editing, enabling it to generate
detailed prompts. In the second stage, we optimize SD to align with the MLLM's
generation prompts. Additionally, we propose a reference-based restoration
network to alleviate texture, brightness, and contrast disparities between
generated and preserved regions during image editing. Extensive results show
that LLMGA has promising generative capabilities and can enable wider
applications in an interactive manner.
- Abstract(参考訳): 本稿では,LLMGA(Large Language Model-based Generation Assistant)を紹介し,画像生成と編集を支援するために,LLM(Large Language Models)に固有の推論,理解,応答の膨大な知識と熟練度を活用する。
MLLM(Multimodal Large Language Models)が安定拡散(SD)を制御するための固定サイズ埋め込みを生成する既存のアプローチから切り離され、LSMGAはSDを正確に制御するための詳細な言語生成プロンプトを提供する。
これは、llmのコンテキスト理解を増強するだけでなく、生成プロンプトのノイズを低減し、より複雑で正確なコンテンツを持つ画像を生成し、ネットワークの解釈可能性を高める。
この目的のために、即時改善、類似画像生成、$\&$のアウトペイント、視覚的質問応答を含む包括的なデータセットをキュレートする。
さらに,二段階訓練方式を提案する。
第1段階では、画像生成と編集の特性を把握できるようにMLLMを訓練し、詳細なプロンプトを生成する。
第2段階では、SDを最適化してMLLMの生成プロンプトに合わせる。
また,画像編集中に生成領域と保存領域のテクスチャ,輝度,コントラストの差異を緩和する参照ベース復元ネットワークを提案する。
その結果, LLMGA は有望な生成能力を有し, 対話的手法で広範囲のアプリケーションを実現することができた。
関連論文リスト
- LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。
LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。
提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。
7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-06-30T15:50:32Z) - TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing [23.51498634405422]
マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。
提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
論文 参考訳(メタデータ) (2024-05-27T03:50:37Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。