論文の概要: LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2505.16933v1
- Date: Thu, 22 May 2025 17:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.495186
- Title: LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
- Title(参考訳): LLaDA-V:ビジュアルインストラクションチューニングによる大規模言語拡散モデル
- Authors: Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, Chongxuan Li,
- Abstract要約: LLaDA-Vは,視覚的インストラクションチューニングとマスク付き拡散モデルを統合した,純粋拡散に基づくマルチモーダル言語モデル(MLLM)である。
代表的な大規模言語拡散モデルであるLLaDAに基づいて構築されたLLaDA-Vには、視覚的特徴を言語埋め込み空間に投影するビジョンエンコーダとコネクタが組み込まれている。
- 参考スコア(独自算出の注目度): 71.98260064022452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce LLaDA-V, a purely diffusion-based Multimodal Large Language Model (MLLM) that integrates visual instruction tuning with masked diffusion models, representing a departure from the autoregressive paradigms dominant in current multimodal approaches. Built upon LLaDA, a representative large language diffusion model, LLaDA-V incorporates a vision encoder and MLP connector that projects visual features into the language embedding space, enabling effective multimodal alignment. Our empirical investigation reveals several intriguing results: First, LLaDA-V demonstrates promising multimodal performance despite its language model being weaker on purely textual tasks than counterparts like LLaMA3-8B and Qwen2-7B. When trained on the same instruction data, LLaDA-V is highly competitive to LLaMA3-V across multimodal tasks with better data scalability. It also narrows the performance gap to Qwen2-VL, suggesting the effectiveness of its architecture for multimodal tasks. Second, LLaDA-V achieves state-of-the-art performance in multimodal understanding compared to existing hybrid autoregressive-diffusion and purely diffusion-based MLLMs. Our findings suggest that large language diffusion models show promise in multimodal contexts and warrant further investigation in future research. Project page and codes: https://ml-gsai.github.io/LLaDA-V-demo/.
- Abstract(参考訳): 本稿では,従来のマルチモーダルアプローチに支配的な自己回帰的パラダイムからの脱却を代表として,マスク付き拡散モデルと視覚的命令チューニングを統合した,純粋拡散に基づくマルチモーダル大言語モデル(MLLM)であるLLaDA-Vを紹介する。
代表的な大規模言語拡散モデルであるLLaDAに基づいて構築されたLLaDA-Vは、視覚的特徴を言語埋め込み空間に投影し、効果的なマルチモーダルアライメントを可能にするビジョンエンコーダとMLPコネクタを備えている。
まず、LLaDA-Vは言語モデルがLLaMA3-8BやQwen2-7Bよりも純粋にテキストタスクで弱いにもかかわらず、有望なマルチモーダル性能を示す。
同じ命令データでトレーニングすると、LLaDA-VはLLaMA3-Vと高い競争力を持つ。
また、パフォーマンスギャップをQwen2-VLに制限し、マルチモーダルタスクにおけるアーキテクチャの有効性を示唆している。
第2に、LLaDA-Vは、既存の自己回帰拡散と純粋拡散に基づくMLLMと比較して、マルチモーダル理解における最先端性能を達成する。
以上の結果から,多モーダル文脈における大きな言語拡散モデルの存在が示唆され,今後の研究でさらなる研究が期待できる。
プロジェクトページとコード:https://ml-gsai.github.io/LLaDA-V-demo/。
関連論文リスト
- LaViDa: A Large Diffusion Language Model for Multimodal Understanding [70.99233885354028]
LaViDaは離散拡散モデルに基づいて構築されたビジョンランゲージモデルのファミリーである。
DMは、高速な推論と制御可能な生成のための双方向コンテキストのための並列デコーディングを提供する。
LaViDaはマルチモーダルベンチマークでAR VLMと競合または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-22T16:07:12Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。