Fugu-MT 論文翻訳(概要): Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

論文の概要: Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

arxiv url: http://arxiv.org/abs/2602.06056v1
Date: Mon, 19 Jan 2026 06:51:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-15 14:54:53.669805
Title: Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space
Title（参考訳）: マルチモーダル埋め込み空間における拡散と自己回帰視覚言語モデルの解析
Authors: Zihang Wang, Siyue Zhang, Yilun Zhao, Jingyi Yang, Tingyu Song, Anh Tuan Luu, Chen Zhao,
Abstract要約: 埋め込みモデルは、セマンティック検索や検索強化生成のような現代のAIシステムの基本コンポーネントである。大規模基盤モデルの最近の進歩は、埋め込みモデルの開発を著しく加速させてきた。マルチモーダルdLLMを埋め込みモデルに変換するための最初の体系的研究について述べる。
参考スコア（独自算出の注目度）: 52.34072027212278
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Embedding models are a fundamental component of modern AI systems such as semantic search and retrieval-augmented generation. Recent advances in large foundation models have substantially accelerated the development of embedding models, including those based on Large Language Models (LLMs), Vision Language Models (VLMs), and Multimodal LLMs. More recently, Large Diffusion Language Models (dLLMs) and Multimodal dLLMs have emerged as competitive alternatives to autoregressive models, offering advantages such as bidirectional attention and parallel generation. This progress naturally raises a critical yet unexplored question: can Multimodal dLLMs serve as effective multimodal embedding models? To answer this, we present the first systematic study of converting Multimodal dLLMs into embedding models. We evaluate state-of-the-art Multimodal dLLMs and Autoregressive VLMs across three categories of embedding tasks: classification, visual question answering, and information retrieval. Our results show that Multimodal dLLM embeddings generally underperform their autoregressive VLM counterparts. The stronger diffusion-based model, LaViDa, lags by only 3.5 points on classification, 2.5 points on VQA, and 4.4 points on retrieval tasks, whereas the other diffusion-based model, MMaDA, exhibits substantially larger performance gaps, exceeding 20 points across all tasks. Further analysis reveals insufficient image-text alignment in diffusion-based models, accounting for the observed limitations in their embedding performance.
Abstract（参考訳）: 埋め込みモデルは、セマンティック検索や検索強化生成のような現代のAIシステムの基本コンポーネントである。大規模基盤モデルの最近の進歩は、大型言語モデル(LLM)、ビジョン言語モデル(VLM)、マルチモーダルLCM(Multimodal LLM)など、埋め込みモデルの開発を大幅に加速させてきた。最近では、大規模拡散言語モデル (dLLMs) とマルチモーダルdLLMs が自動回帰モデルの競合代替として登場し、双方向の注意や並列生成などの利点を提供している。マルチモーダルdLLMは効果的なマルチモーダル埋め込みモデルとして機能するのか? そこで本研究では,Multimodal dLLMを埋め込みモデルに変換するための最初の体系的研究について述べる。我々は,組込みタスクの分類,視覚的質問応答,情報検索の3つのカテゴリにまたがって,最先端のマルチモーダルdLLMと自己回帰VLMを評価した。以上の結果より,Multimodal dLLM 埋め込みは自己回帰型 VLM よりも優れていた。より強力な拡散ベースモデルであるLaViDaは、分類で3.5ポイント、VQAで2.5ポイント、検索タスクで4.4ポイントしか遅延しないが、他の拡散ベースモデルであるMMaDAは、全てのタスクで20ポイントを超えている。さらに解析した結果,拡散モデルでは画像テキストのアライメントが不十分であることが判明した。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文参考訳（メタデータ） (2025-06-16T17:59:08Z)
OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning [71.98260064022452]
LLaDA-Vは,視覚的インストラクションチューニングとマスク付き拡散モデルを統合した,純粋拡散に基づくマルチモーダル言語モデル(MLLM)である。代表的な大規模言語拡散モデルであるLLaDAに基づいて構築されたLLaDA-Vには、視覚的特徴を言語埋め込み空間に投影するビジョンエンコーダとコネクタが組み込まれている。
論文参考訳（メタデータ） (2025-05-22T17:23:26Z)
Multi-modal Synthetic Data Training and Model Collapse: Insights from VLMs and Diffusion Models [24.73190742678142]
マルチモーダル視覚言語生成システムにおける生成モデル崩壊のリスクについて検討する。モデル崩壊は、視覚言語アライメントの改善や、画像キャプションタスクのばらつきの増大など、マルチモーダルな文脈において異なる特徴を示す。本研究は,自己改善型マルチエージェントAIシステムにおいて,モデル崩壊のリスクを低減するための初期知見と実践的ガイドラインを提供する。
論文参考訳（メタデータ） (2025-05-10T22:42:29Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [191.7830199016589]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。 We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。