論文の概要: Jasper and Stella: distillation of SOTA embedding models
- arxiv url: http://arxiv.org/abs/2412.19048v2
- Date: Thu, 23 Jan 2025 16:01:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:54:57.307037
- Title: Jasper and Stella: distillation of SOTA embedding models
- Title(参考訳): ジャスパーとステラ:SOTA埋込モデルの蒸留
- Authors: Dun Zhang, Jiacheng Li, Ziyang Zeng, Fulong Wang,
- Abstract要約: そこで本研究では,より小規模な学生埋め込みモデルにより,複数の教師埋め込みモデルを蒸留できる新しい多段階蒸留フレームワークを提案する。
我々は,Matryoshka Representation Learning(MRL)を用いて,学生埋め込みモデルのベクトル次元を効果的に削減する。
私たちの学生モデルは、Stella埋め込みモデルに基づく20億のパラメータを持つJasperという名前で、Massive Text Embedding Benchmarkのリーダーボードで3位を獲得しました。
- 参考スコア(独自算出の注目度): 8.708650717134008
- License:
- Abstract: A crucial component in many deep learning applications, such as Frequently Asked Questions (FAQ) and Retrieval-Augmented Generation (RAG), is dense retrieval. In this process, embedding models transform raw text into numerical vectors. However, the embedding models that currently excel on text embedding benchmarks, like the Massive Text Embedding Benchmark (MTEB), often have numerous parameters and high vector dimensionality. This poses challenges for their application in real-world scenarios. To address this issue, we propose a novel multi-stage distillation framework that enables a smaller student embedding model to distill multiple larger teacher embedding models through three carefully designed losses. Meanwhile, we utilize Matryoshka Representation Learning (MRL) to reduce the vector dimensionality of the student embedding model effectively. Our student model named Jasper with 2 billion parameters, built upon the Stella embedding model, obtained the No.3 position on the MTEB leaderboard (as of December 24, 2024), achieving an average 71.54 score across 56 datasets. We have released the model and data on the Hugging Face Hub (https://huggingface.co/infgrad/jasper_en_vision_language_v1) (https://huggingface.co/datasets/infgrad/jasper_text_distill_dataset), and the training codes are available in this project repository (https://github.com/NLPJCL/RAG-Retrieval).
- Abstract(参考訳): Frequently Asked Questions (FAQ) や Retrieval-Augmented Generation (RAG) など、多くのディープラーニングアプリケーションにおいて重要な要素は、高密度検索である。
この過程で、埋め込みモデルは生テキストを数値ベクトルに変換する。
しかし、テキスト埋め込みベンチマーク(MTEB)のような、現在テキスト埋め込みベンチマークに優れている埋め込みモデルは、多くのパラメータと高いベクトル次元を持つことが多い。
これは、現実のシナリオにおけるアプリケーションの課題を提起する。
この問題に対処するために,より小さな学生埋め込みモデルを用いて,より大規模な教師埋め込みモデルを3つの慎重に設計した損失を通じて蒸留することができる,新しい多段階蒸留フレームワークを提案する。
一方,Matryoshka Representation Learning(MRL)を用いて,学生埋め込みモデルのベクトル次元を効果的に削減する。
私たちの学生モデルは、Stella埋め込みモデルに基づく20億のパラメータを持つJasperという名前で、MTEBのリーダーボード(2024年12月24日現在)で3位を獲得し、56のデータセットで平均71.54のスコアを獲得しました。
私たちはHugging Face Hub(https://huggingface.co/infgrad/jasper_en_vision_language_v1) (https://huggingface.co/datasets/infgrad/jasper_text_distill_dataset)のモデルとデータをリリースした。
関連論文リスト
- Optimizing Parking Space Classification: Distilling Ensembles into Lightweight Classifiers [0.0]
画像に基づく駐車空間分類において,教師モデルとして機能する分類器の頑健なアンサンブルを提案する。
これらの教師モデルは、エッジデバイスに直接デプロイ可能な軽量で特殊な学生モデルに蒸留される。
その結果,教師モデルより26倍少ないパラメータを持つ学生モデルは,対象試験データセットの平均精度96.6%を達成した。
論文 参考訳(メタデータ) (2024-10-07T20:29:42Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models [5.2094499417507105]
本報告では,テキスト埋込型テキスト埋め込みモデルのファミリの背後にあるトレーニングデータセットの作成とレシピについて述べる。
リリース時点で、各モデルはMTEB検索のリーダーボード上で、その大きさのモデルに対する最先端の検索精度を達成した。
論文 参考訳(メタデータ) (2024-05-08T19:05:18Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Who's Harry Potter? Approximate Unlearning in LLMs [4.821438899378393]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。
これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。
本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T17:48:14Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - SOLAR: Sparse Orthogonal Learned and Random Embeddings [45.920844071257754]
我々は,高次元および超スパース埋め込みが,クエリ効率と精度の両面において,高密度な低次元埋め込みよりもはるかに優れていると論じている。
我々は,最大3つの公開データセット上で1.6万冊の書籍を検索し,複数ラベルの分類を行うタスクに対して,500K次元のSOLAR埋め込みを訓練する。
それぞれのタスクに対して,最大10倍の高速さで,各タスクの最先端のベースラインと比較して,精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2020-08-30T17:35:35Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。