論文の概要: RzenEmbed: Towards Comprehensive Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2510.27350v1
- Date: Fri, 31 Oct 2025 10:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.070612
- Title: RzenEmbed: Towards Comprehensive Multimodal Retrieval
- Title(参考訳): RzenEmbed: 総合的なマルチモーダル検索を目指して
- Authors: Weijian Jian, Yajun Zhang, Dawei Liang, Chunyu Xie, Yixiao He, Dawei Leng, Yuhui Yin,
- Abstract要約: RzenEmbedは、様々なモダリティの組込みを学ぶための統一されたフレームワークである。
差別表現を学習するために、新しい2段階の訓練戦略を採用する。
RzenEmbedはMMEBベンチマークで新しい最先端を設定できる。
- 参考スコア(独自算出の注目度): 11.540508319550087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Multimodal Large Language Models (MLLMs) has extended CLIP-based frameworks to produce powerful, universal embeddings for retrieval tasks. However, existing methods primarily focus on natural images, offering limited support for other crucial visual modalities such as videos and visual documents. To bridge this gap, we introduce RzenEmbed, a unified framework to learn embeddings across a diverse set of modalities, including text, images, videos, and visual documents. We employ a novel two-stage training strategy to learn discriminative representations. The first stage focuses on foundational text and multimodal retrieval. In the second stage, we introduce an improved InfoNCE loss, incorporating two key enhancements. Firstly, a hardness-weighted mechanism guides the model to prioritize challenging samples by assigning them higher weights within each batch. Secondly, we implement an approach to mitigate the impact of false negatives and alleviate data noise. This strategy not only enhances the model's discriminative power but also improves its instruction-following capabilities. We further boost performance with learnable temperature parameter and model souping. RzenEmbed sets a new state-of-the-art on the MMEB benchmark. It not only achieves the best overall score but also outperforms all prior work on the challenging video and visual document retrieval tasks. Our models are available in https://huggingface.co/qihoo360/RzenEmbed.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩により、CLIPベースのフレームワークが拡張され、検索タスクのための強力で普遍的な埋め込みが実現された。
しかし、既存の手法は主に自然画像に焦点を当てており、ビデオやビジュアルドキュメントのような他の重要な視覚的モダリティを限定的にサポートしている。
このギャップを埋めるため、テキスト、画像、ビデオ、ビジュアルドキュメントなど、さまざまなモダリティの組込みを学習するための統合フレームワークであるRzenEmbedを紹介した。
差別表現を学習するために、新しい2段階の訓練戦略を採用する。
第1段階は基礎テキストとマルチモーダル検索に焦点を当てている。
第2段階では、InfoNCEの損失が改善し、2つの重要な改善が加えられた。
第一に、硬度重み付けのメカニズムは、各バッチ内でより高い重みを割り当てることで、挑戦的なサンプルを優先順位付けするようにモデルを導出する。
第二に、偽陰性の影響を緩和し、データノイズを軽減するアプローチを実装している。
この戦略はモデルの識別能力を高めるだけでなく、命令追従能力も向上させる。
学習可能な温度パラメータとモデルスープリングにより、さらに性能を向上する。
RzenEmbedはMMEBベンチマークで新しい最先端を設定できる。
最高のスコアを得るだけでなく、挑戦的なビデオやビジュアル文書検索のタスクにおいて、これまでのすべての仕事を上回ります。
私たちのモデルはhttps://huggingface.co/qihoo360/RzenEmbed.comで利用可能です。
関連論文リスト
- QZhou-Embedding Technical Report [16.213081669689185]
Qwen2.5-7B-Instructファンデーションモデルに基づいて、特殊なデータ変換とトレーニング戦略を含む統合マルチタスクフレームワークを設計した。
以上の結果から,検索モデルの性能向上には,高品質で多様なデータが不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-08-29T13:47:22Z) - VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents [105.43882565434444]
VLM2Vec-V2は、様々な視覚形態にまたがる埋め込みを学習するための統一的なフレームワークである。
まず、MMEBを5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。
次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。
論文 参考訳(メタデータ) (2025-07-07T00:51:57Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。