Fugu-MT 論文翻訳(概要): LLMGA: Multimodal Large Language Model based Generation Assistant

論文の概要: LLMGA: Multimodal Large Language Model based Generation Assistant

arxiv url: http://arxiv.org/abs/2311.16500v3
Date: Mon, 11 Mar 2024 05:48:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 15:08:52.858488
Title: LLMGA: Multimodal Large Language Model based Generation Assistant
Title（参考訳）: LLMGA:マルチモーダル大言語モデルに基づく生成アシスタント
Authors: Bin Xia, Shiyin Wang, Yingfan Tao, Yitong Wang, and Jiaya Jia
Abstract要約: 画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
参考スコア（独自算出の注目度）: 53.150283805515926
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce a Multimodal Large Language Model-based Generation Assistant (LLMGA), leveraging the vast reservoir of knowledge and proficiency in reasoning, comprehension, and response inherent in Large Language Models (LLMs) to assist users in image generation and editing. Diverging from existing approaches where Multimodal Large Language Models (MLLMs) generate fixed-size embeddings to control Stable Diffusion (SD), our LLMGA provides a detailed language generation prompt for precise control over SD. This not only augments LLM context understanding but also reduces noise in generation prompts, yields images with more intricate and precise content, and elevates the interpretability of the network. To this end, we curate a comprehensive dataset comprising prompt refinement, similar image generation, inpainting \& outpainting, and instruction-based editing. Moreover, we propose a two-stage training scheme. In the first stage, we train the MLLM to grasp the properties of image generation and editing, enabling it to generate detailed prompts. In the second stage, we optimize SD to align with the MLLM's generation prompts. Additionally, we propose a reference-based restoration network to alleviate texture, brightness, and contrast disparities between generated and preserved regions during inpainting and outpainting. Extensive results show that LLMGA has promising generation and editing capabilities and can enable more flexible and expansive applications in an interactive manner.
Abstract（参考訳）: 本稿では,LLMGA(Large Language Model-based Generation Assistant)を紹介し,画像生成と編集を支援するために,LLM(Large Language Models)に固有の推論,理解,応答の膨大な知識と熟練度を活用する。 MLLM(Multimodal Large Language Models)が安定拡散(SD)を制御するための固定サイズ埋め込みを生成する既存のアプローチから切り離され、LSMGAはSDを正確に制御するための詳細な言語生成プロンプトを提供する。これは、llmのコンテキスト理解を増強するだけでなく、生成プロンプトのノイズを低減し、より複雑で正確なコンテンツを持つ画像を生成し、ネットワークの解釈可能性を高める。そこで本研究では, 迅速な精細化, 類似画像生成, 塗り絵, 命令ベースの編集を含む包括的データセットをキュレートする。さらに,二段階訓練方式を提案する。第1段階では、画像生成と編集の特性を把握できるようにMLLMを訓練し、詳細なプロンプトを生成する。第2段階では、SDを最適化してMLLMの生成プロンプトに合わせる。また, 塗装時と塗装時において, 生成領域と保存領域のテクスチャ, 輝度, コントラストの差異を緩和する参照ベース復元ネットワークを提案する。幅広い結果から、llmgaは有望な生成と編集機能を持ち、より柔軟で拡張性の高いアプリケーションをインタラクティブに実現できることが分かる。

関連論文リスト

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。 ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文参考訳（メタデータ） (2025-04-02T17:45:00Z)
LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation [14.877355149519198]
本稿では,大規模言語モデル(LLM)を既存のテキスト・画像拡散モデルに統合する新しい手法であるLDGenを紹介する。提案手法では,階層的なキャプション最適化とヒューマンインストラクション技術を用いて,正確な意味情報を導出する言語表現戦略を採用している。
論文参考訳（メタデータ） (2025-02-25T15:42:34Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。 LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。 7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文参考訳（メタデータ） (2024-06-30T15:50:32Z)
TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing [23.51498634405422]
マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
論文参考訳（メタデータ） (2024-05-27T03:50:37Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。