Fugu-MT 論文翻訳(概要): KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model

論文の概要: KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model

arxiv url: http://arxiv.org/abs/2506.20923v1
Date: Thu, 26 Jun 2025 01:09:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:09.932496
Title: KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model
Title（参考訳）: KaLM-Embedding-V2:Serior Training Techniques and Data Inspire a Versatile Embedding Model
Authors: Xinping Zhao, Xinshuo Hu, Zifei Shan, Shouzheng Huang, Yao Zhou, Zetian Sun, Zhenyu Liu, Dongfang Li, Xinyuan Wei, Qian Chen, Youcheng Pan, Yang Xiang, Meishan Zhang, Haofen Wang, Jun Yu, Baotian Hu, Min Zhang,
Abstract要約: 汎用的・コンパクトな埋め込みモデルである KaLM-Embedding-V2 は汎用テキスト埋め込みタスクにおいて優れた性能を発揮する。 i) 大規模弱教師付きオープンソースコーパスの事前トレーニング、(ii) 高品質な検索と非検索データセットの微調整、(iii) 堅牢な一般化のためのモデル-バックアップパラメータ平均化。
参考スコア（独自算出の注目度）: 46.95431131609286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose KaLM-Embedding-V2, a versatile and compact embedding model, which achieves impressive performance in general-purpose text embedding tasks by leveraging superior training techniques and data. Our key innovations include: (1) To better align the architecture with representation learning, we remove the causal attention mask and adopt a fully bidirectional transformer with simple yet effective mean-pooling to produce fixed-length embeddings; (2) We employ a multi-stage training pipeline: (i) pre-training on large-scale weakly supervised open-source corpora; (ii) fine-tuning on high-quality retrieval and non-retrieval datasets; and (iii) model-soup parameter averaging for robust generalization. Besides, we introduce a focal-style reweighting mechanism that concentrates learning on difficult samples and an online hard-negative mixing strategy to continuously enrich hard negatives without expensive offline mining; (3) We collect over 20 categories of data for pre-training and 100 categories of data for fine-tuning, to boost both the performance and generalization of the embedding model. Extensive evaluations on the Massive Text Embedding Benchmark (MTEB) Chinese and English show that our model significantly outperforms others of comparable size, and competes with 3x, 14x, 18x, and 26x larger embedding models, setting a new standard for a versatile and compact embedding model with less than 1B parameters.
Abstract（参考訳）: 本稿では, 汎用テキスト埋め込みタスクにおいて, 優れたトレーニング手法とデータを活用することで, 優れた性能を実現する多目的かつコンパクトな埋め込みモデルである KaLM-Embedding-V2 を提案する。 1) アーキテクチャと表現学習をより良く整合させるため、因果注意マスクを取り除き、固定長の埋め込みを生成するために、単純で効果的な平均プールを備えた完全な双方向トランスフォーマーを採用する。一大規模弱監督オープンソースコーパスの事前訓練 (二)高品質検索及び非検索データセットの微調整、及び (3)ロバストな一般化のためのモデル・ソープパラメータ平均化。さらに, 難解なサンプルの学習に集中する焦点スタイルの再重み付け機構を導入し, オンラインのハードネガティブ混合戦略により, 高価なオフラインマイニングを伴わず, ハードネガティブを継続的に強化し, (3) プレトレーニング用データ20種類, 微調整用データ100種類を収集し, 組込みモデルの性能と一般化の両立を図った。 MTEB (Massive Text Embedding Benchmark) による大規模な評価では、我々のモデルは同等の大きさの他のモデルよりも大幅に優れており、3x, 14x, 18x, 26x以上の埋め込みモデルと競合し、1Bパラメータ未満の汎用的でコンパクトな埋め込みモデルの新たな標準が設定されている。

関連論文リスト

SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文参考訳（メタデータ） (2025-01-16T18:59:46Z)
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文参考訳（メタデータ） (2025-01-03T19:00:00Z)
KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model [27.25688303240741]
KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有のトレーニングデータを活用する一般的な多言語埋め込みモデルである。我々のモデルは、性能を向上させることが証明された重要な技術で訓練されている。
論文参考訳（メタデータ） (2025-01-02T03:17:51Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。 We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文参考訳（メタデータ） (2024-09-07T13:41:37Z)
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
我々はNV-Embedを導入し、アーキテクチャ設計、トレーニング手順、キュレートされたデータセットを取り入れた。モデルアーキテクチャでは, プール埋め込みを実現するために, 潜時注意層を提案する。学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。
論文参考訳（メタデータ） (2024-05-27T17:59:45Z)
GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning [0.0]
GISTEmbedは、ガイドモデルによる対照的なトレーニングにおいて、バッチ内のネガティブな選択を強化する新しい戦略である。 MTEB(Massive Text Embedding Benchmark)に対してベンチマークされたGISTEmbedは、さまざまなモデルサイズで一貫したパフォーマンス改善を示している。
論文参考訳（メタデータ） (2024-02-26T18:55:15Z)
Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文参考訳（メタデータ） (2024-02-16T03:39:37Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。