論文の概要: Lateralization LoRA: Interleaved Instruction Tuning with Modality-Specialized Adaptations
- arxiv url: http://arxiv.org/abs/2407.03604v1
- Date: Thu, 4 Jul 2024 03:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-08 19:21:33.466367
- Title: Lateralization LoRA: Interleaved Instruction Tuning with Modality-Specialized Adaptations
- Title(参考訳): Lateralization LoRA:Modality-Specialized Adaptationを用いたインターリーブインストラクションチューニング
- Authors: Zhiyang Xu, Minqian Liu, Ying Shen, Joy Rimchala, Jiaxin Zhang, Qifan Wang, Yu Cheng, Lifu Huang,
- Abstract要約: LeafInstructは、10以上のドメインで30,000以上の高品質なインスタンスを持つ最初のオープンソースインターリーブ型インストラクションチューニングデータである。
本稿では,脳の側方化の概念に触発された新しいモダリティ特化適応法である横方向化LoRAを提案する。
本稿では,LeafInstruct データセット上で,Larialization LoRA を用いて VLG (EMU2) の命令チューニングを行う。
- 参考スコア(独自算出の注目度): 45.800383191637785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Vision-Language Models (VLMs) have led to the development of Vision-Language Generalists (VLGs) capable of understanding and generating interleaved images and text. Despite these advances, VLGs still struggle to follow user instructions for interleaved text and image generation. To address this issue, we introduce LeafInstruct, the first open-sourced interleaved instruction tuning data with over 30,000 high-quality instances across more than 10 domains. Due to the extensive size of existing VLGs, we opt for parameter-efficient tuning. However, we observe that VLGs tuned with a standard LoRA typically exhibit inferior performance in interleaved text-image generation. We attribute this problem to modality interference and the lack of modality-specialized adaptation design. Hence, we propose Lateralization LoRA, a novel modality-specialized adaptation method inspired by the concept of brain lateralization. Lateralization LoRA employs a hybrid approach, combining the traditional linear LoRA and a Convolutional LoRA for generating text and images, enabling the generation of high-quality text and images by leveraging modality-specific structures and parameter sets. We perform instruction tuning of the VLG (i.e., EMU2) using Lateralization LoRA on the LeafInstruct dataset. Extensive experiments demonstrate that EMU2 tuned with Lateralization LoRA achieve state-of-the-art performance, significantly surpassing baseline models in complex interleaved tasks.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩により、VLG(Vision-Language Generalists)が開発され、インターリーブ画像やテキストの理解と生成が可能になった。
これらの進歩にもかかわらず、VLGはインターリーブされたテキストと画像生成のためのユーザー指示に従うのに苦戦している。
この問題に対処するために、LeafInstructを紹介します。LeafInstructは、10以上のドメインで30,000以上の高品質なインスタンスを持つ、最初のオープンソースインターリーブ型インストラクションチューニングデータです。
既存のVLGの規模が大きいため,パラメータ効率の調整が可能である。
しかしながら、標準のLoRAで調整されたVLGは、通常、インターリーブされたテキスト画像生成において劣る性能を示す。
この問題は、モダリティ干渉と、モダリティ特化適応設計の欠如に起因している。
そこで我々は,脳の側方化の概念に触発された新しいモダリティ特化適応法である横方向化LoRAを提案する。
線形LoRAと畳み込みLoRAを組み合わせてテキストと画像を生成することで、モダリティ固有の構造とパラメータセットを利用して高品質なテキストと画像を生成する。
本稿では,LeafInstruct データセット上で,Larialization LoRA を用いて VLG (EMU2) の命令チューニングを行う。
大規模な実験により、EMU2とラテラライズLORAは、複雑なインターリーブタスクにおけるベースラインモデルを大幅に超え、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation [1.124958340749622]
視覚言語モデル (LVLM) は、モーダルな理解と指示の追従において強力な能力を示した。
LumiGenは、T2Iモデルの性能を高めるために設計された新しいLVLM拡張反復フレームワークである。
LumiGenは平均スコア3.08で、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-05T20:53:43Z) - Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。
現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。
我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。
本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文 参考訳(メタデータ) (2025-03-17T09:31:14Z) - Autoregressive Image Generation with Vision Full-view Prompt [18.569610688433745]
自動回帰画像生成のための視覚フルビュープロンプト(VFプロンプト)を提案する。
NLPの分野でのプロンプトエンジニアリングにインスパイアされ、自動回帰画像生成を改善するためにビジョンフルビュープロンプト(VFプロンプト)を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:44:01Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z) - Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。
VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。
高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文 参考訳(メタデータ) (2025-01-01T18:27:13Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文 参考訳(メタデータ) (2024-11-28T13:55:06Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing [23.51498634405422]
マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。
提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
論文 参考訳(メタデータ) (2024-05-27T03:50:37Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - MAGVLT: Masked Generative Vision-and-Language Transformer [15.796199345773879]
画像とテキストシーケンスの両方を生成可能な統合生成型視覚言語モデルについて検討する。
本稿では,非自己回帰マスク予測に基づく生成VL変換器MAGVLTを提案し,自己回帰生成VL変換器(ARGVLT)と比較する。
MAGVLTと画像テキストペアをスクラッチから厳格に訓練するために、画像からテキスト、テキスト・ツー・イメージ、および共同画像・テキスト・マスク予測タスクを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T21:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。