論文の概要: VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents
- arxiv url: http://arxiv.org/abs/2507.04590v1
- Date: Mon, 07 Jul 2025 00:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.244994
- Title: VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents
- Title(参考訳): VLM2Vec-V2: ビデオ、画像、ビジュアルドキュメントのマルチモーダル埋め込みの改善
- Authors: Rui Meng, Ziyan Jiang, Ye Liu, Mingyi Su, Xinyi Yang, Yuepeng Fu, Can Qin, Zeyuan Chen, Ran Xu, Caiming Xiong, Yingbo Zhou, Wenhu Chen, Semih Yavuz,
- Abstract要約: VLM2Vec-V2は、様々な視覚形態にまたがる埋め込みを学習するための統一的なフレームワークである。
まず、MMEBを5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。
次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。
- 参考スコア(独自算出の注目度): 105.43882565434444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering over different modalities. However, existing multimodal embeddings like VLM2Vec, E5-V, GME are predominantly focused on natural images, with limited support for other visual forms such as videos and visual documents. This restricts their applicability in real-world scenarios, including AI agents, multi-modal search and recommendation, and retrieval-augmented generation (RAG). To close this gap, we propose VLM2Vec-V2, a unified framework for learning embeddings across diverse visual forms. First, we introduce MMEB-V2, a comprehensive benchmark that extends MMEB with five new task types: visual document retrieval, video retrieval, temporal grounding, video classification and video question answering - spanning text, image, video, and visual document inputs. Next, we train VLM2Vec-V2, a general-purpose embedding model that supports text, image, video, and visual document inputs. Extensive experiments show that VLM2Vec-V2 achieves strong performance not only on the newly introduced video and document retrieval tasks, but also improves over prior baselines on the original image benchmarks. Through extensive evaluation, our study offers insights into the generalizability of various multimodal embedding models and highlights effective strategies for unified embedding learning, laying the groundwork for more scalable and adaptable representation learning in both research and real-world settings.
- Abstract(参考訳): マルチモーダル埋め込みモデルは、セマンティックな類似性、情報検索、異なるモダリティに対するクラスタリングなど、さまざまな下流タスクを可能にするために不可欠である。
しかしながら、VLM2Vec、E5-V、GMEのような既存のマルチモーダル埋め込みは、ビデオやビジュアルドキュメントのような他の視覚形式を限定的にサポートしながら、主に自然画像に焦点を当てている。
これにより、AIエージェント、マルチモーダル検索とレコメンデーション、検索拡張生成(RAG)など、現実世界のシナリオでの適用性が制限される。
このギャップを埋めるために,様々な視覚形態にまたがる埋め込みを学習するための統合フレームワークであるVLM2Vec-V2を提案する。
まず、MMEBを視覚文書検索、ビデオ検索、時間的グラウンド化、ビデオ分類、ビデオ質問応答(テキスト、画像、ビデオ、ビジュアル文書入力)という5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。
次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。
大規模な実験により、VLM2Vec-V2は、新しく導入されたビデオおよび文書検索タスクだけでなく、元の画像ベンチマークの以前のベースラインよりも高いパフォーマンスを達成することが示された。
広汎な評価を通じて,多モード埋め込みモデルの一般化可能性に関する知見を提供し,統合型埋め込み学習の効果的な戦略を強調し,研究と実世界の双方において,よりスケーラブルで適応可能な表現学習の基礎を築いた。
関連論文リスト
- Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure [5.332290080594085]
視覚言語モデル(VLM)は、視覚情報とテキスト情報を複数のフォーマットで処理することができる。
テキストの多いマルチモーダル文書から要約を生成するための費用対効果戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:55:01Z) - Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval [24.764393859378544]
ビデオ検索のためのモダリティ補助概念(MAC-VR)を紹介する。
我々は、潜在空間におけるモダリティの整合と、補助潜在概念の学習と整合性を提案する。
5つの多様なデータセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2025-04-02T10:56:01Z) - V$^2$Dial: Unification of Video and Visual Dialog via Multimodal Experts [44.33388344586592]
V$2$Dialは、マルチモーダルな会話タスクのための画像とビデオの入力データを同時に扱うための、エキスパートベースの新しいモデルである。
本稿では,画像とビデオの空間的特徴と時間的特徴を共同で学習する単一モデルを用いて,両方のタスクを統合することを提案する。
論文 参考訳(メタデータ) (2025-03-03T21:27:38Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。