論文の概要: LLMGA: Multimodal Large Language Model based Generation Assistant
- arxiv url: http://arxiv.org/abs/2311.16500v3
- Date: Mon, 11 Mar 2024 05:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:08:52.858488
- Title: LLMGA: Multimodal Large Language Model based Generation Assistant
- Title(参考訳): LLMGA:マルチモーダル大言語モデルに基づく生成アシスタント
- Authors: Bin Xia, Shiyin Wang, Yingfan Tao, Yitong Wang, and Jiaya Jia
- Abstract要約: 画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
- 参考スコア(独自算出の注目度): 53.150283805515926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a Multimodal Large Language Model-based
Generation Assistant (LLMGA), leveraging the vast reservoir of knowledge and
proficiency in reasoning, comprehension, and response inherent in Large
Language Models (LLMs) to assist users in image generation and editing.
Diverging from existing approaches where Multimodal Large Language Models
(MLLMs) generate fixed-size embeddings to control Stable Diffusion (SD), our
LLMGA provides a detailed language generation prompt for precise control over
SD. This not only augments LLM context understanding but also reduces noise in
generation prompts, yields images with more intricate and precise content, and
elevates the interpretability of the network. To this end, we curate a
comprehensive dataset comprising prompt refinement, similar image generation,
inpainting \& outpainting, and instruction-based editing. Moreover, we propose
a two-stage training scheme. In the first stage, we train the MLLM to grasp the
properties of image generation and editing, enabling it to generate detailed
prompts. In the second stage, we optimize SD to align with the MLLM's
generation prompts. Additionally, we propose a reference-based restoration
network to alleviate texture, brightness, and contrast disparities between
generated and preserved regions during inpainting and outpainting. Extensive
results show that LLMGA has promising generation and editing capabilities and
can enable more flexible and expansive applications in an interactive manner.
- Abstract(参考訳): 本稿では,LLMGA(Large Language Model-based Generation Assistant)を紹介し,画像生成と編集を支援するために,LLM(Large Language Models)に固有の推論,理解,応答の膨大な知識と熟練度を活用する。
MLLM(Multimodal Large Language Models)が安定拡散(SD)を制御するための固定サイズ埋め込みを生成する既存のアプローチから切り離され、LSMGAはSDを正確に制御するための詳細な言語生成プロンプトを提供する。
これは、llmのコンテキスト理解を増強するだけでなく、生成プロンプトのノイズを低減し、より複雑で正確なコンテンツを持つ画像を生成し、ネットワークの解釈可能性を高める。
そこで本研究では, 迅速な精細化, 類似画像生成, 塗り絵, 命令ベースの編集を含む包括的データセットをキュレートする。
さらに,二段階訓練方式を提案する。
第1段階では、画像生成と編集の特性を把握できるようにMLLMを訓練し、詳細なプロンプトを生成する。
第2段階では、SDを最適化してMLLMの生成プロンプトに合わせる。
また, 塗装時と塗装時において, 生成領域と保存領域のテクスチャ, 輝度, コントラストの差異を緩和する参照ベース復元ネットワークを提案する。
幅広い結果から、llmgaは有望な生成と編集機能を持ち、より柔軟で拡張性の高いアプリケーションをインタラクティブに実現できることが分かる。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and
Generating with Multimodal LLMs [82.50395966704974]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - LLMRA: Multi-modal Large Language Model based Restoration Assistant [25.534022968675337]
本稿では,このギャップに対処するシンプルなMLLMベースの画像復元フレームワークを提案する。
我々はMLLMの印象的な機能を利用して、ユニバーサル画像復元のための劣化情報を得る。
本手法は,MLLMからの画像劣化に先立ち,入力された低品質画像と復元された高画質画像の低レベル属性記述を同時に提供する。
論文 参考訳(メタデータ) (2024-01-21T04:50:19Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [96.5230327196615]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。