論文の概要: Jasper and Stella: distillation of SOTA embedding models
- arxiv url: http://arxiv.org/abs/2412.19048v1
- Date: Thu, 26 Dec 2024 04:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:17.388146
- Title: Jasper and Stella: distillation of SOTA embedding models
- Title(参考訳): ジャスパーとステラ:SOTA埋込モデルの蒸留
- Authors: Dun Zhang, FulongWang,
- Abstract要約: 埋め込みモデルを正確に評価するために、テキスト埋め込みベンチマークが確立されている。
これらのベンチマークにより、SOTAモデルを使用できるが、業界におけるこれらのモデルの展開と適用は、その大きなベクトル次元によって妨げられた。
より小規模な学生モデルで良好な性能が得られる蒸留技術を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A crucial component of many deep learning applications (such as FAQ and RAG) is dense retrieval, in which embedding models are used to convert raw text to numerical vectors and then get the most similar text by MIPS (Maximum Inner Product Search). Some text embedding benchmarks (e.g. MTEB, BEIR, and AIR-Bench) have been established to evaluate embedding models accurately. Thanks to these benchmarks, we can use SOTA models; however, the deployment and application of these models in industry were hampered by their large vector dimensions and numerous parameters. To alleviate this problem, 1) we present a distillation technique that can enable a smaller student model to achieve good performance. 2) Inspired by MRL we present a training approach of reducing the vector dimensions based on its own vectors or its teacher vectors. 3) We do simple yet effective alignment training between images and text to make our model a multimodal encoder. We trained Stella and Jasper models using the technologies above and achieved high scores on the MTEB leaderboard. We release the model and data at Hugging Face Hub (https://huggingface.co/infgrad/jasper_en_vision_language_v1) and the training logs are at https://api.wandb.ai/links/dunnzhang0/z8jqoqpb.
- Abstract(参考訳): 多くのディープラーニングアプリケーション(FAQやRAGなど)において重要なコンポーネントは、埋め込みモデルを使用して生テキストを数値ベクトルに変換し、MIPS(Maximum Inner Product Search)によって最もよく似たテキストを取得する、密集検索である。
いくつかのテキスト埋め込みベンチマーク(例えば、MTEB、BEIR、AIR-Bench)は、埋め込みモデルを正確に評価するために確立されている。
これらのベンチマークにより、SOTAモデルを使用できるが、業界におけるこれらのモデルの展開と適用は、その大きなベクトル次元と多数のパラメータによって妨げられた。
この問題を緩和する。
1) より小規模な学生モデルで良好な性能が得られる蒸留技術を提案する。
2)MRLにインスパイアされた本研究では,そのベクトルあるいは教師ベクトルに基づいて,ベクトル次元を縮小する訓練手法を提案する。
3) モデルをマルチモーダルエンコーダにするために,画像とテキスト間の簡易かつ効果的なアライメントトレーニングを行う。
上記の技術を使ってStellaとJasperのモデルをトレーニングし、MTEBのリーダーボードで高いスコアを獲得しました。
We release the model and data at Hugging Face Hub (https://huggingface.co/infgrad/jasper_en_vision_ languages_v1) and the training logs are at https://api.wandb.ai/links/dunnzhang0/z8jqoqpb。
関連論文リスト
- Optimizing Parking Space Classification: Distilling Ensembles into Lightweight Classifiers [0.0]
画像に基づく駐車空間分類において,教師モデルとして機能する分類器の頑健なアンサンブルを提案する。
これらの教師モデルは、エッジデバイスに直接デプロイ可能な軽量で特殊な学生モデルに蒸留される。
その結果,教師モデルより26倍少ないパラメータを持つ学生モデルは,対象試験データセットの平均精度96.6%を達成した。
論文 参考訳(メタデータ) (2024-10-07T20:29:42Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models [5.2094499417507105]
本報告では,テキスト埋込型テキスト埋め込みモデルのファミリの背後にあるトレーニングデータセットの作成とレシピについて述べる。
リリース時点で、各モデルはMTEB検索のリーダーボード上で、その大きさのモデルに対する最先端の検索精度を達成した。
論文 参考訳(メタデータ) (2024-05-08T19:05:18Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Who's Harry Potter? Approximate Unlearning in LLMs [4.821438899378393]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。
これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。
本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T17:48:14Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - SOLAR: Sparse Orthogonal Learned and Random Embeddings [45.920844071257754]
我々は,高次元および超スパース埋め込みが,クエリ効率と精度の両面において,高密度な低次元埋め込みよりもはるかに優れていると論じている。
我々は,最大3つの公開データセット上で1.6万冊の書籍を検索し,複数ラベルの分類を行うタスクに対して,500K次元のSOLAR埋め込みを訓練する。
それぞれのタスクに対して,最大10倍の高速さで,各タスクの最先端のベースラインと比較して,精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2020-08-30T17:35:35Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。