論文の概要: Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space
- arxiv url: http://arxiv.org/abs/2602.06056v1
- Date: Mon, 19 Jan 2026 06:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.669805
- Title: Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space
- Title(参考訳): マルチモーダル埋め込み空間における拡散と自己回帰視覚言語モデルの解析
- Authors: Zihang Wang, Siyue Zhang, Yilun Zhao, Jingyi Yang, Tingyu Song, Anh Tuan Luu, Chen Zhao,
- Abstract要約: 埋め込みモデルは、セマンティック検索や検索強化生成のような現代のAIシステムの基本コンポーネントである。
大規模基盤モデルの最近の進歩は、埋め込みモデルの開発を著しく加速させてきた。
マルチモーダルdLLMを埋め込みモデルに変換するための最初の体系的研究について述べる。
- 参考スコア(独自算出の注目度): 52.34072027212278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding models are a fundamental component of modern AI systems such as semantic search and retrieval-augmented generation. Recent advances in large foundation models have substantially accelerated the development of embedding models, including those based on Large Language Models (LLMs), Vision Language Models (VLMs), and Multimodal LLMs. More recently, Large Diffusion Language Models (dLLMs) and Multimodal dLLMs have emerged as competitive alternatives to autoregressive models, offering advantages such as bidirectional attention and parallel generation. This progress naturally raises a critical yet unexplored question: can Multimodal dLLMs serve as effective multimodal embedding models? To answer this, we present the first systematic study of converting Multimodal dLLMs into embedding models. We evaluate state-of-the-art Multimodal dLLMs and Autoregressive VLMs across three categories of embedding tasks: classification, visual question answering, and information retrieval. Our results show that Multimodal dLLM embeddings generally underperform their autoregressive VLM counterparts. The stronger diffusion-based model, LaViDa, lags by only 3.5 points on classification, 2.5 points on VQA, and 4.4 points on retrieval tasks, whereas the other diffusion-based model, MMaDA, exhibits substantially larger performance gaps, exceeding 20 points across all tasks. Further analysis reveals insufficient image-text alignment in diffusion-based models, accounting for the observed limitations in their embedding performance.
- Abstract(参考訳): 埋め込みモデルは、セマンティック検索や検索強化生成のような現代のAIシステムの基本コンポーネントである。
大規模基盤モデルの最近の進歩は、大型言語モデル(LLM)、ビジョン言語モデル(VLM)、マルチモーダルLCM(Multimodal LLM)など、埋め込みモデルの開発を大幅に加速させてきた。
最近では、大規模拡散言語モデル (dLLMs) とマルチモーダルdLLMs が自動回帰モデルの競合代替として登場し、双方向の注意や並列生成などの利点を提供している。
マルチモーダルdLLMは効果的なマルチモーダル埋め込みモデルとして機能するのか?
そこで本研究では,Multimodal dLLMを埋め込みモデルに変換するための最初の体系的研究について述べる。
我々は,組込みタスクの分類,視覚的質問応答,情報検索の3つのカテゴリにまたがって,最先端のマルチモーダルdLLMと自己回帰VLMを評価した。
以上の結果より,Multimodal dLLM 埋め込みは自己回帰型 VLM よりも優れていた。
より強力な拡散ベースモデルであるLaViDaは、分類で3.5ポイント、VQAで2.5ポイント、検索タスクで4.4ポイントしか遅延しないが、他の拡散ベースモデルであるMMaDAは、全てのタスクで20ポイントを超えている。
さらに解析した結果,拡散モデルでは画像テキストのアライメントが不十分であることが判明した。
関連論文リスト
- Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。
自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。