論文の概要: Lateralization LoRA: Interleaved Instruction Tuning with Modality-Specialized Adaptations
- arxiv url: http://arxiv.org/abs/2407.03604v1
- Date: Thu, 4 Jul 2024 03:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 19:21:33.466367
- Title: Lateralization LoRA: Interleaved Instruction Tuning with Modality-Specialized Adaptations
- Title(参考訳): Lateralization LoRA:Modality-Specialized Adaptationを用いたインターリーブインストラクションチューニング
- Authors: Zhiyang Xu, Minqian Liu, Ying Shen, Joy Rimchala, Jiaxin Zhang, Qifan Wang, Yu Cheng, Lifu Huang,
- Abstract要約: LeafInstructは、10以上のドメインで30,000以上の高品質なインスタンスを持つ最初のオープンソースインターリーブ型インストラクションチューニングデータである。
本稿では,脳の側方化の概念に触発された新しいモダリティ特化適応法である横方向化LoRAを提案する。
本稿では,LeafInstruct データセット上で,Larialization LoRA を用いて VLG (EMU2) の命令チューニングを行う。
- 参考スコア(独自算出の注目度): 45.800383191637785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Vision-Language Models (VLMs) have led to the development of Vision-Language Generalists (VLGs) capable of understanding and generating interleaved images and text. Despite these advances, VLGs still struggle to follow user instructions for interleaved text and image generation. To address this issue, we introduce LeafInstruct, the first open-sourced interleaved instruction tuning data with over 30,000 high-quality instances across more than 10 domains. Due to the extensive size of existing VLGs, we opt for parameter-efficient tuning. However, we observe that VLGs tuned with a standard LoRA typically exhibit inferior performance in interleaved text-image generation. We attribute this problem to modality interference and the lack of modality-specialized adaptation design. Hence, we propose Lateralization LoRA, a novel modality-specialized adaptation method inspired by the concept of brain lateralization. Lateralization LoRA employs a hybrid approach, combining the traditional linear LoRA and a Convolutional LoRA for generating text and images, enabling the generation of high-quality text and images by leveraging modality-specific structures and parameter sets. We perform instruction tuning of the VLG (i.e., EMU2) using Lateralization LoRA on the LeafInstruct dataset. Extensive experiments demonstrate that EMU2 tuned with Lateralization LoRA achieve state-of-the-art performance, significantly surpassing baseline models in complex interleaved tasks.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩により、VLG(Vision-Language Generalists)が開発され、インターリーブ画像やテキストの理解と生成が可能になった。
これらの進歩にもかかわらず、VLGはインターリーブされたテキストと画像生成のためのユーザー指示に従うのに苦戦している。
この問題に対処するために、LeafInstructを紹介します。LeafInstructは、10以上のドメインで30,000以上の高品質なインスタンスを持つ、最初のオープンソースインターリーブ型インストラクションチューニングデータです。
既存のVLGの規模が大きいため,パラメータ効率の調整が可能である。
しかしながら、標準のLoRAで調整されたVLGは、通常、インターリーブされたテキスト画像生成において劣る性能を示す。
この問題は、モダリティ干渉と、モダリティ特化適応設計の欠如に起因している。
そこで我々は,脳の側方化の概念に触発された新しいモダリティ特化適応法である横方向化LoRAを提案する。
線形LoRAと畳み込みLoRAを組み合わせてテキストと画像を生成することで、モダリティ固有の構造とパラメータセットを利用して高品質なテキストと画像を生成する。
本稿では,LeafInstruct データセット上で,Larialization LoRA を用いて VLG (EMU2) の命令チューニングを行う。
大規模な実験により、EMU2とラテラライズLORAは、複雑なインターリーブタスクにおけるベースラインモデルを大幅に超え、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。
VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。
高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文 参考訳(メタデータ) (2025-01-01T18:27:13Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文 参考訳(メタデータ) (2024-11-28T13:55:06Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - MAGVLT: Masked Generative Vision-and-Language Transformer [15.796199345773879]
画像とテキストシーケンスの両方を生成可能な統合生成型視覚言語モデルについて検討する。
本稿では,非自己回帰マスク予測に基づく生成VL変換器MAGVLTを提案し,自己回帰生成VL変換器(ARGVLT)と比較する。
MAGVLTと画像テキストペアをスクラッチから厳格に訓練するために、画像からテキスト、テキスト・ツー・イメージ、および共同画像・テキスト・マスク予測タスクを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T21:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。