論文の概要: QZhou-Embedding Technical Report
- arxiv url: http://arxiv.org/abs/2508.21632v1
- Date: Fri, 29 Aug 2025 13:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.062294
- Title: QZhou-Embedding Technical Report
- Title(参考訳): QZhou-Embedding Technical Report
- Authors: Peng Yu, En Xu, Bin Chen, Haibiao Chen, Yinfei Xu,
- Abstract要約: Qwen2.5-7B-Instructファンデーションモデルに基づいて、特殊なデータ変換とトレーニング戦略を含む統合マルチタスクフレームワークを設計した。
以上の結果から,検索モデルの性能向上には,高品質で多様なデータが不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 16.213081669689185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present QZhou-Embedding, a general-purpose contextual text embedding model with exceptional text representation capabilities. Built upon the Qwen2.5-7B-Instruct foundation model, we designed a unified multi-task framework comprising specialized data transformation and training strategies. The data transformation scheme enables the incorporation of more diverse textual training datasets, while the task-specific training strategies enhance model learning efficiency. We developed a data synthesis pipeline leveraging LLM API, incorporating techniques such as paraphrasing, augmentation, and hard negative example generation to improve the semantic richness and sample difficulty of the training set. Additionally, we employ a two-stage training strategy, comprising initial retrieval-focused pretraining followed by full-task fine-tuning, enabling the embedding model to extend its capabilities based on robust retrieval performance. Our model achieves state-of-the-art results on the MTEB and CMTEB benchmarks, ranking first on both leaderboards (August 27 2025), and simultaneously achieves state-of-the-art performance on tasks including reranking, clustering, etc. Our findings demonstrate that higher-quality, more diverse data is crucial for advancing retrieval model performance, and that leveraging LLMs generative capabilities can further optimize data quality for embedding model breakthroughs. Our model weights are released on HuggingFace under Apache 2.0 license. For reproducibility, we provide evaluation code and instructions on GitHub.
- Abstract(参考訳): QZhou-Embeddingは、例外的なテキスト表現機能を備えた汎用的なコンテキストテキスト埋め込みモデルである。
Qwen2.5-7B-Instructファンデーションモデルに基づいて、特殊なデータ変換とトレーニング戦略を含む統合マルチタスクフレームワークを設計した。
データ変換方式は、より多様なテキストトレーニングデータセットを組み込むことを可能にし、タスク固有のトレーニング戦略はモデルの学習効率を向上させる。
LLM APIを利用したデータ合成パイプラインを開発し、パラフレージング、拡張、ハードネガティブなサンプル生成などの手法を取り入れて、トレーニングセットのセマンティック・リッチネスとサンプルの難易度を向上させる。
さらに,検索中心の事前学習と全タスクの微調整を併用した2段階のトレーニング戦略を用いて,頑健な検索性能に基づいて埋め込みモデルを拡張した。
2025年8月27日,MTEB と CMTEB のベンチマークで最先端の結果が得られた。
以上の結果から,より高品質で多種多様なデータが検索モデルの性能向上に不可欠であること,LLMの生成能力を活用することで,モデルブレークスルーを埋め込むためのデータ品質をさらに最適化できることが示唆された。
私たちのモデルはApache 2.0ライセンス下でHuggingFaceでリリースされています。
再現性のために、評価コードとインストラクションをGitHubで提供します。
関連論文リスト
- An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
我々はNV-Embedを導入し、アーキテクチャ設計、トレーニング手順、キュレートされたデータセットを取り入れた。
モデルアーキテクチャでは, プール埋め込みを実現するために, 潜時注意層を提案する。
学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:59:45Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。