論文の概要: KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model
- arxiv url: http://arxiv.org/abs/2506.20923v1
- Date: Thu, 26 Jun 2025 01:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.932496
- Title: KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model
- Title(参考訳): KaLM-Embedding-V2:Serior Training Techniques and Data Inspire a Versatile Embedding Model
- Authors: Xinping Zhao, Xinshuo Hu, Zifei Shan, Shouzheng Huang, Yao Zhou, Zetian Sun, Zhenyu Liu, Dongfang Li, Xinyuan Wei, Qian Chen, Youcheng Pan, Yang Xiang, Meishan Zhang, Haofen Wang, Jun Yu, Baotian Hu, Min Zhang,
- Abstract要約: 汎用的・コンパクトな埋め込みモデルである KaLM-Embedding-V2 は汎用テキスト埋め込みタスクにおいて優れた性能を発揮する。
i) 大規模弱教師付きオープンソースコーパスの事前トレーニング、(ii) 高品質な検索と非検索データセットの微調整、(iii) 堅牢な一般化のためのモデル-バックアップパラメータ平均化。
- 参考スコア(独自算出の注目度): 46.95431131609286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose KaLM-Embedding-V2, a versatile and compact embedding model, which achieves impressive performance in general-purpose text embedding tasks by leveraging superior training techniques and data. Our key innovations include: (1) To better align the architecture with representation learning, we remove the causal attention mask and adopt a fully bidirectional transformer with simple yet effective mean-pooling to produce fixed-length embeddings; (2) We employ a multi-stage training pipeline: (i) pre-training on large-scale weakly supervised open-source corpora; (ii) fine-tuning on high-quality retrieval and non-retrieval datasets; and (iii) model-soup parameter averaging for robust generalization. Besides, we introduce a focal-style reweighting mechanism that concentrates learning on difficult samples and an online hard-negative mixing strategy to continuously enrich hard negatives without expensive offline mining; (3) We collect over 20 categories of data for pre-training and 100 categories of data for fine-tuning, to boost both the performance and generalization of the embedding model. Extensive evaluations on the Massive Text Embedding Benchmark (MTEB) Chinese and English show that our model significantly outperforms others of comparable size, and competes with 3x, 14x, 18x, and 26x larger embedding models, setting a new standard for a versatile and compact embedding model with less than 1B parameters.
- Abstract(参考訳): 本稿では, 汎用テキスト埋め込みタスクにおいて, 優れたトレーニング手法とデータを活用することで, 優れた性能を実現する多目的かつコンパクトな埋め込みモデルである KaLM-Embedding-V2 を提案する。
1) アーキテクチャと表現学習をより良く整合させるため、因果注意マスクを取り除き、固定長の埋め込みを生成するために、単純で効果的な平均プールを備えた完全な双方向トランスフォーマーを採用する。
一 大規模弱監督オープンソースコーパスの事前訓練
(二)高品質検索及び非検索データセットの微調整、及び
(3)ロバストな一般化のためのモデル・ソープパラメータ平均化。
さらに, 難解なサンプルの学習に集中する焦点スタイルの再重み付け機構を導入し, オンラインのハードネガティブ混合戦略により, 高価なオフラインマイニングを伴わず, ハードネガティブを継続的に強化し, (3) プレトレーニング用データ20種類, 微調整用データ100種類を収集し, 組込みモデルの性能と一般化の両立を図った。
MTEB (Massive Text Embedding Benchmark) による大規模な評価では、我々のモデルは同等の大きさの他のモデルよりも大幅に優れており、3x, 14x, 18x, 26x以上の埋め込みモデルと競合し、1Bパラメータ未満の汎用的でコンパクトな埋め込みモデルの新たな標準が設定されている。
関連論文リスト
- DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model [27.25688303240741]
KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有のトレーニングデータを活用する一般的な多言語埋め込みモデルである。
我々のモデルは、性能を向上させることが証明された重要な技術で訓練されている。
論文 参考訳(メタデータ) (2025-01-02T03:17:51Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。