論文の概要: LaViDa: A Large Diffusion Language Model for Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2505.16839v1
- Date: Thu, 22 May 2025 16:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.436648
- Title: LaViDa: A Large Diffusion Language Model for Multimodal Understanding
- Title(参考訳): LaViDa:マルチモーダル理解のための大規模拡散言語モデル
- Authors: Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover,
- Abstract要約: LaViDaは離散拡散モデルに基づいて構築されたビジョンランゲージモデルのファミリーである。
DMは、高速な推論と制御可能な生成のための双方向コンテキストのための並列デコーディングを提供する。
LaViDaはマルチモーダルベンチマークでAR VLMと競合または優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 70.99233885354028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Vision-Language Models (VLMs) can solve a wide range of tasks requiring visual reasoning. In real-world scenarios, desirable properties for VLMs include fast inference and controllable generation (e.g., constraining outputs to adhere to a desired format). However, existing autoregressive (AR) VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs) offer a promising alternative, enabling parallel decoding for faster inference and bidirectional context for controllable generation through text-infilling. While effective in language-only settings, DMs' potential for multimodal tasks is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build LaViDa by equipping DMs with a vision encoder and jointly fine-tune the combined parts for multimodal instruction following. To address challenges encountered, LaViDa incorporates novel techniques such as complementary masking for effective training, prefix KV cache for efficient inference, and timestep shifting for high-quality sampling. Experiments show that LaViDa achieves competitive or superior performance to AR VLMs on multi-modal benchmarks such as MMMU, while offering unique advantages of DMs, including flexible speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x speedup. On bidirectional tasks, it achieves +59% improvement on Constrained Poem Completion. These results demonstrate LaViDa as a strong alternative to AR VLMs. Code and models will be released in the camera-ready version.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、視覚的推論を必要とする幅広いタスクを解くことができる。
実世界のシナリオでは、VLMの望ましい特性には、高速な推論と制御可能な生成(例えば、所望のフォーマットに従属するように出力を制約する)が含まれる。
しかし、LLaVAのような既存の自己回帰(AR)VLMはこれらの面で苦戦している。
離散拡散モデル(DM)は、高速な推論とテキスト入力による制御可能な生成のための双方向コンテキストのための並列デコードを可能にする、有望な代替手段を提供する。
言語のみの設定では有効であるが、マルチモーダルタスクに対するDMのポテンシャルは過小評価されている。
DM上に構築されたVLMのファミリーであるLaViDaを紹介する。
我々は、視覚エンコーダでDMを装備し、マルチモーダル・インストラクションのための複合部品を共同で微調整することでLaViDaを構築する。
LaViDaは、効果的なトレーニングのための補完マスク、効率的な推論のためのプレフィックスKVキャッシュ、高品質サンプリングのためのタイムステップシフトといった新しいテクニックを取り入れている。
実験により、LaViDaはMMMUのようなマルチモーダルベンチマーク上でAR VLMと競合あるいは優れた性能を達成し、フレキシブルな速度品質のトレードオフ、制御性、双方向推論など、DMの独特なアドバンテージを提供することが示された。
COCOキャプションでは、LaViDaはOpen-LLaVa-Next-8Bを+4.1 CIDErで1.92倍高速化した。
双方向タスクでは、Constrained Poem Completionが+59%改善されている。
これらの結果は、LaViDaがAR VLMの強力な代替品であることを示している。
コードとモデルはカメラ対応バージョンでリリースされる。
関連論文リスト
- LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning [71.98260064022452]
LLaDA-Vは,視覚的インストラクションチューニングとマスク付き拡散モデルを統合した,純粋拡散に基づくマルチモーダル言語モデル(MLLM)である。
代表的な大規模言語拡散モデルであるLLaDAに基づいて構築されたLLaDA-Vには、視覚的特徴を言語埋め込み空間に投影するビジョンエンコーダとコネクタが組み込まれている。
論文 参考訳(メタデータ) (2025-05-22T17:23:26Z) - Speculative Decoding Reimagined for Multimodal Large Language Models [48.115777709178595]
本稿では,Multimodal Large Language Models(MLLM)推論を高速化するために,MSD(Multimodal Speculative Decoding)を提案する。
実験の結果、MSDはLLaVA-1.5-7Bの推論速度を最大2.29倍、LLaVA-1.5-13Bのマルチモーダルベンチマークでは最大2.46倍に向上した。
論文 参考訳(メタデータ) (2025-05-20T12:12:17Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。