Fugu-MT 論文翻訳(概要): Lateralization LoRA: Interleaved Instruction Tuning with Modality-Specialized Adaptations

論文の概要: Lateralization LoRA: Interleaved Instruction Tuning with Modality-Specialized Adaptations

arxiv url: http://arxiv.org/abs/2407.03604v1
Date: Thu, 4 Jul 2024 03:28:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 19:21:33.466367
Title: Lateralization LoRA: Interleaved Instruction Tuning with Modality-Specialized Adaptations
Title（参考訳）: Lateralization LoRA:Modality-Specialized Adaptationを用いたインターリーブインストラクションチューニング
Authors: Zhiyang Xu, Minqian Liu, Ying Shen, Joy Rimchala, Jiaxin Zhang, Qifan Wang, Yu Cheng, Lifu Huang,
Abstract要約: LeafInstructは、10以上のドメインで30,000以上の高品質なインスタンスを持つ最初のオープンソースインターリーブ型インストラクションチューニングデータである。本稿では,脳の側方化の概念に触発された新しいモダリティ特化適応法である横方向化LoRAを提案する。本稿では,LeafInstruct データセット上で,Larialization LoRA を用いて VLG (EMU2) の命令チューニングを行う。
参考スコア（独自算出の注目度）: 45.800383191637785
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Vision-Language Models (VLMs) have led to the development of Vision-Language Generalists (VLGs) capable of understanding and generating interleaved images and text. Despite these advances, VLGs still struggle to follow user instructions for interleaved text and image generation. To address this issue, we introduce LeafInstruct, the first open-sourced interleaved instruction tuning data with over 30,000 high-quality instances across more than 10 domains. Due to the extensive size of existing VLGs, we opt for parameter-efficient tuning. However, we observe that VLGs tuned with a standard LoRA typically exhibit inferior performance in interleaved text-image generation. We attribute this problem to modality interference and the lack of modality-specialized adaptation design. Hence, we propose Lateralization LoRA, a novel modality-specialized adaptation method inspired by the concept of brain lateralization. Lateralization LoRA employs a hybrid approach, combining the traditional linear LoRA and a Convolutional LoRA for generating text and images, enabling the generation of high-quality text and images by leveraging modality-specific structures and parameter sets. We perform instruction tuning of the VLG (i.e., EMU2) using Lateralization LoRA on the LeafInstruct dataset. Extensive experiments demonstrate that EMU2 tuned with Lateralization LoRA achieve state-of-the-art performance, significantly surpassing baseline models in complex interleaved tasks.
Abstract（参考訳）: 近年のVLM(Vision-Language Models)の進歩により、VLG(Vision-Language Generalists)が開発され、インターリーブ画像やテキストの理解と生成が可能になった。これらの進歩にもかかわらず、VLGはインターリーブされたテキストと画像生成のためのユーザー指示に従うのに苦戦している。この問題に対処するために、LeafInstructを紹介します。LeafInstructは、10以上のドメインで30,000以上の高品質なインスタンスを持つ、最初のオープンソースインターリーブ型インストラクションチューニングデータです。既存のVLGの規模が大きいため,パラメータ効率の調整が可能である。しかしながら、標準のLoRAで調整されたVLGは、通常、インターリーブされたテキスト画像生成において劣る性能を示す。この問題は、モダリティ干渉と、モダリティ特化適応設計の欠如に起因している。そこで我々は,脳の側方化の概念に触発された新しいモダリティ特化適応法である横方向化LoRAを提案する。線形LoRAと畳み込みLoRAを組み合わせてテキストと画像を生成することで、モダリティ固有の構造とパラメータセットを利用して高品質なテキストと画像を生成する。本稿では,LeafInstruct データセット上で,Larialization LoRA を用いて VLG (EMU2) の命令チューニングを行う。大規模な実験により、EMU2とラテラライズLORAは、複雑なインターリーブタスクにおけるベースラインモデルを大幅に超え、最先端のパフォーマンスを達成することが示された。

関連論文リスト

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。 ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文参考訳（メタデータ） (2025-04-02T17:45:00Z)
Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文参考訳（メタデータ） (2025-03-17T09:31:14Z)
Autoregressive Image Generation with Vision Full-view Prompt [18.569610688433745]
自動回帰画像生成のための視覚フルビュープロンプト(VFプロンプト)を提案する。 NLPの分野でのプロンプトエンジニアリングにインスパイアされ、自動回帰画像生成を改善するためにビジョンフルビュープロンプト(VFプロンプト)を提案する。
論文参考訳（メタデータ） (2025-02-24T08:44:01Z)
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。 Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。 nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-28T14:23:58Z)
VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。 QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-02T14:45:53Z)
LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文参考訳（メタデータ） (2024-11-28T13:55:06Z)
Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-23T10:11:56Z)
TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing [23.51498634405422]
マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
論文参考訳（メタデータ） (2024-05-27T03:50:37Z)
Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文参考訳（メタデータ） (2024-01-16T20:31:46Z)
Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文参考訳（メタデータ） (2023-11-27T18:56:37Z)
LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文参考訳（メタデータ） (2023-11-27T13:37:26Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
Improving Compositional Text-to-image Generation with Large Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文参考訳（メタデータ） (2023-10-10T05:09:05Z)
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文参考訳（メタデータ） (2023-09-25T19:42:16Z)
Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文参考訳（メタデータ） (2023-07-16T13:41:39Z)
MAGVLT: Masked Generative Vision-and-Language Transformer [15.796199345773879]
画像とテキストシーケンスの両方を生成可能な統合生成型視覚言語モデルについて検討する。本稿では,非自己回帰マスク予測に基づく生成VL変換器MAGVLTを提案し,自己回帰生成VL変換器(ARGVLT)と比較する。 MAGVLTと画像テキストペアをスクラッチから厳格に訓練するために、画像からテキスト、テキスト・ツー・イメージ、および共同画像・テキスト・マスク予測タスクを組み合わせる。
論文参考訳（メタデータ） (2023-03-21T21:49:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。