論文の概要: Modality-Specialized Synergizers for Interleaved Vision-Language Generalists
- arxiv url: http://arxiv.org/abs/2407.03604v2
- Date: Sat, 07 Jun 2025 19:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:08.701449
- Title: Modality-Specialized Synergizers for Interleaved Vision-Language Generalists
- Title(参考訳): インターリーブ・ビジョン・ランゲージ・ジェネラリストのためのモダリティ特化型シナジエータ
- Authors: Zhiyang Xu, Minqian Liu, Ying Shen, Joy Rimchala, Jiaxin Zhang, Qifan Wang, Yu Cheng, Lifu Huang,
- Abstract要約: ビジョンランゲージ・ジェネリスト(VLG)は、テキストと画像の両方を理解し、生成することができる。
1つの主な制限は、個別のテキストトークンと連続した画像の特徴を同時にモデル化するために、統一アーキテクチャと同じパラメータセットを適用することである。
最近の研究は、モダリティを意識したエキスパートモデルを導入することで、この問題に対処しようとしている。
本稿では,既存のVLGの統一アーキテクチャを効率的に最適化する新しい設計であるMODALITY-SPECIALIZED SynERGIZERS (MOSS)を紹介する。
- 参考スコア(独自算出の注目度): 45.800383191637785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Vision-Language Models (VLMs) have led to the emergence of Vision-Language Generalists (VLGs) capable of understanding and generating both text and images. However, seamlessly generating an arbitrary sequence of text and images remains a challenging task for the current VLGs. One primary limitation lies in applying a unified architecture and the same set of parameters to simultaneously model discrete text tokens and continuous image features. Recent works attempt to tackle this fundamental problem by introducing modality-aware expert models. However, they employ identical architectures to process both text and images, disregarding the intrinsic inductive biases in these two modalities. In this work, we introduce MODALITY-SPECIALIZED SYNERGIZERS (MOSS), a novel design that efficiently optimizes existing unified architectures of VLGs with modality-specialized adaptation layers, i.e., a Convolutional LoRA for modeling the local priors of image patches and a Linear LoRA for processing sequential text. This design enables more effective modeling of modality-specific features while maintaining the strong cross-modal integration gained from pretraining. In addition, to improve the instruction-following capability on interleaved text-and-image generation, we introduce LEAFINSTRUCT, the first open-sourced interleaved instruction tuning dataset comprising 184,982 high-quality instances on more than 10 diverse domains. Extensive experiments show that VLGs integrated with M OSS achieve state-of-the-art performance, significantly surpassing baseline VLGs in complex interleaved generation tasks. Furthermore, our method exhibits strong generalizability on different VLGs.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩は、テキストと画像の両方を理解・生成できるVLG(Vision-Language Generalists)の出現につながっている。
しかし、任意のテキストと画像をシームレスに生成することは、現在のVLGにとって難しい課題である。
1つの主な制限は、個別のテキストトークンと連続した画像の特徴を同時にモデル化するために、統一アーキテクチャと同じパラメータセットを適用することである。
最近の研究は、モダリティを意識したエキスパートモデルを導入することで、この問題に対処しようとしている。
しかし、これら2つのモードの本質的な帰納バイアスを無視して、テキストと画像の両方を処理するために、同じアーキテクチャを採用している。
本稿では,画像パッチの局所的な先行をモデル化する畳み込みLoRAとシーケンシャルテキストを処理するLinear LoRAという,VLGの既存の統一アーキテクチャをモダリティ特化適応層で効率的に最適化する新しい設計であるMODALITY-SPECIALIZED SynERGIZERS (MOSS)を紹介する。
この設計により、事前訓練から得られる強力な相互モーダル統合を維持しつつ、モーダル特有の特徴をより効果的にモデリングすることができる。
さらに、インターリーブ付きテキスト・画像生成における命令追従機能を改善するため、10以上の異なるドメインで184,982の高品質なインスタンスからなる最初のオープンソースインターリーブ型命令チューニングデータセットであるLEAFINSTRUCTを導入する。
M OSSと統合されたVLGは、複雑なインターリーブ生成タスクにおいて、ベースラインのVLGをはるかに上回り、最先端のパフォーマンスを実現している。
さらに,本手法は異なるVLGに対して強い一般化性を示す。
関連論文リスト
- ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。
本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文 参考訳(メタデータ) (2025-03-17T09:31:14Z) - Autoregressive Image Generation with Vision Full-view Prompt [18.569610688433745]
自動回帰画像生成のための視覚フルビュープロンプト(VFプロンプト)を提案する。
NLPの分野でのプロンプトエンジニアリングにインスパイアされ、自動回帰画像生成を改善するためにビジョンフルビュープロンプト(VFプロンプト)を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:44:01Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文 参考訳(メタデータ) (2024-11-28T13:55:06Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing [23.51498634405422]
マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。
提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
論文 参考訳(メタデータ) (2024-05-27T03:50:37Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - MAGVLT: Masked Generative Vision-and-Language Transformer [15.796199345773879]
画像とテキストシーケンスの両方を生成可能な統合生成型視覚言語モデルについて検討する。
本稿では,非自己回帰マスク予測に基づく生成VL変換器MAGVLTを提案し,自己回帰生成VL変換器(ARGVLT)と比較する。
MAGVLTと画像テキストペアをスクラッチから厳格に訓練するために、画像からテキスト、テキスト・ツー・イメージ、および共同画像・テキスト・マスク予測タスクを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T21:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。