論文の概要: Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
- arxiv url: http://arxiv.org/abs/2601.04720v1
- Date: Thu, 08 Jan 2026 08:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.114533
- Title: Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
- Title(参考訳): Qwen3-VL-EmbeddingとQwen3-VL-Reranker: 最先端マルチモーダル検索とランク付けのための統一フレームワーク
- Authors: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin,
- Abstract要約: 本稿では,Qwen3-VL-EmbeddingとQwen3-VL-Rerankerモデルシリーズを紹介する。
Qwen3-VL-Embeddingモデルでは、意味的にリッチな高次元ベクトルを生成するためのマルチステージトレーニングパラダイムを採用している。
Qwen3-VL-Rerankerはクエリ-ドキュメントペアの詳細な関連性推定を行う。
- 参考スコア(独自算出の注目度): 80.53668824533493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in $\textbf{2B}$ and $\textbf{8B}$ parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of $\textbf{77.8}$ on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.
- Abstract(参考訳): 本稿では,Qwen3-VL-EmbeddingおよびQwen3-VL-Rerankerモデルシリーズを紹介する。
同時に、テキスト、画像、文書画像、ビデオを含む様々なモダリティを統一された表現空間にマッピングすることで、高精度なマルチモーダル検索のためのエンドツーエンドパイプラインを提供する。
Qwen3-VL-Embeddingモデルでは、大規模なコントラスト事前学習からモデルの蒸留に発展し、意味的にリッチな高次元ベクトルを生成するマルチステージトレーニングパラダイムを採用している。
Matryoshka Representation Learningをサポートし、フレキシブルな埋め込みディメンションを可能にし、最大32kトークンまで入力を処理する。
補完として、Qwen3-VL-Rerankerは、クロスアテンション機構を備えたクロスエンコーダアーキテクチャを用いて、クエリドキュメントペアの詳細な関連性を推定する。
どちらのモデルもQwen3-VLの多言語機能を継承し、30以上の言語をサポートし、さまざまなデプロイメント要件を満たすために$\textbf{2B}$と$\textbf{8B}$パラメータサイズでリリースされている。
実験的な評価は、Qwen3-VL-Embeddingシリーズが様々なマルチモーダル埋め込み評価ベンチマークで最先端の結果を得ることを示した。
具体的には、Qwen3-VL-Embedding-8B は MMEB-V2 で$\textbf{77.8}$ の総合スコアを獲得し、全モデルで第1位(2025年1月8日現在)となった。
本報告では, 画像テキスト検索, 視覚的質問応答, ビデオテキストマッチングなど, 様々なマルチモーダル検索タスクにおいて, シリーズのアーキテクチャ, トレーニング手法, 実用性を示す。
関連論文リスト
- Qwen3-VL Technical Report [153.3964813640593]
Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。
最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。
Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
論文 参考訳(メタデータ) (2025-11-26T17:59:08Z) - Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models [90.54780244175511]
我々は、前身のGTE-Qwenシリーズよりも大幅に進歩したQwen3 Embeddingシリーズを紹介する。
Qwen3 Embeddingシリーズは、組み込みタスクと再ランクタスクの両方のためのモデルサイズの範囲を提供する。
Qwen3 Embeddingシリーズは様々なベンチマークで最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-06-05T15:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。