論文の概要: Jasper and Stella: distillation of SOTA embedding models
- arxiv url: http://arxiv.org/abs/2412.19048v1
- Date: Thu, 26 Dec 2024 04:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 21:44:05.061031
- Title: Jasper and Stella: distillation of SOTA embedding models
- Title(参考訳): ジャスパーとステラ:SOTA埋込モデルの蒸留
- Authors: Dun Zhang, FulongWang,
- Abstract要約: 埋め込みモデルを正確に評価するために、テキスト埋め込みベンチマークが確立されている。
これらのベンチマークにより、SOTAモデルを使用できるが、業界におけるこれらのモデルの展開と適用は、その大きなベクトル次元によって妨げられた。
より小規模な学生モデルで良好な性能が得られる蒸留技術を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A crucial component of many deep learning applications (such as FAQ and RAG) is dense retrieval, in which embedding models are used to convert raw text to numerical vectors and then get the most similar text by MIPS (Maximum Inner Product Search). Some text embedding benchmarks (e.g. MTEB, BEIR, and AIR-Bench) have been established to evaluate embedding models accurately. Thanks to these benchmarks, we can use SOTA models; however, the deployment and application of these models in industry were hampered by their large vector dimensions and numerous parameters. To alleviate this problem, 1) we present a distillation technique that can enable a smaller student model to achieve good performance. 2) Inspired by MRL we present a training approach of reducing the vector dimensions based on its own vectors or its teacher vectors. 3) We do simple yet effective alignment training between images and text to make our model a multimodal encoder. We trained Stella and Jasper models using the technologies above and achieved high scores on the MTEB leaderboard. We release the model and data at Hugging Face Hub (https://huggingface.co/infgrad/jasper_en_vision_language_v1) and the training logs are at https://api.wandb.ai/links/dunnzhang0/z8jqoqpb.
- Abstract(参考訳): 多くのディープラーニングアプリケーション(FAQやRAGなど)において重要なコンポーネントは、埋め込みモデルを使用して生テキストを数値ベクトルに変換し、MIPS(Maximum Inner Product Search)によって最もよく似たテキストを取得する、密集検索である。
いくつかのテキスト埋め込みベンチマーク(例えば、MTEB、BEIR、AIR-Bench)は、埋め込みモデルを正確に評価するために確立されている。
これらのベンチマークにより、SOTAモデルを使用できるが、業界におけるこれらのモデルの展開と適用は、その大きなベクトル次元と多数のパラメータによって妨げられた。
この問題を緩和する。
1) より小規模な学生モデルで良好な性能が得られる蒸留技術を提案する。
2)MRLにインスパイアされた本研究では,そのベクトルあるいは教師ベクトルに基づいて,ベクトル次元を縮小する訓練手法を提案する。
3) モデルをマルチモーダルエンコーダにするために,画像とテキスト間の簡易かつ効果的なアライメントトレーニングを行う。
上記の技術を使ってStellaとJasperのモデルをトレーニングし、MTEBのリーダーボードで高いスコアを獲得しました。
We release the model and data at Hugging Face Hub (https://huggingface.co/infgrad/jasper_en_vision_ languages_v1) and the training logs are at https://api.wandb.ai/links/dunnzhang0/z8jqoqpb。
関連論文リスト
- Training Sparse Mixture Of Experts Text Embedding Models [0.0]
トランスフォーマーベースのテキスト埋め込みモデルは、パラメータ数を増やすことで、MIRACLやBEIRのようなベンチマークのパフォーマンスを改善した。
このスケーリングアプローチでは、推論レイテンシやメモリ使用量の増加など、デプロイメント上の大きな課題が導入されている。
最初の汎用MoEテキスト埋め込みモデルであるNomic Embed v2を紹介する。
論文 参考訳(メタデータ) (2025-02-11T21:36:31Z) - Can bidirectional encoder become the ultimate winner for downstream applications of foundation models? [1.8120356834558644]
基礎モデルには、事前学習、移動学習、自己指導学習の特徴がある。
BERTは、マスク付き言語モデルを用いて事前学習において、一方通行の言語モデリングのみを使用するという制限を突破した。
本稿では,GPT と BERT に基づく一方向モデルと双方向モデルを分析し,その目的に基づいて差分を比較する。
論文 参考訳(メタデータ) (2024-11-27T03:31:14Z) - Optimizing Parking Space Classification: Distilling Ensembles into Lightweight Classifiers [0.0]
画像に基づく駐車空間分類において,教師モデルとして機能する分類器の頑健なアンサンブルを提案する。
これらの教師モデルは、エッジデバイスに直接デプロイ可能な軽量で特殊な学生モデルに蒸留される。
その結果,教師モデルより26倍少ないパラメータを持つ学生モデルは,対象試験データセットの平均精度96.6%を達成した。
論文 参考訳(メタデータ) (2024-10-07T20:29:42Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models [5.2094499417507105]
本報告では,テキスト埋込型テキスト埋め込みモデルのファミリの背後にあるトレーニングデータセットの作成とレシピについて述べる。
リリース時点で、各モデルはMTEB検索のリーダーボード上で、その大きさのモデルに対する最先端の検索精度を達成した。
論文 参考訳(メタデータ) (2024-05-08T19:05:18Z) - Foundational GPT Model for MEG [3.524869467682149]
本研究では,脳信号の予測を用いて学習可能な2種類のディープラーニング基礎モデルを提案する。
まず、改良されたWavenetを検討し、次に、改良されたTransformer-based (GPT2)モデルを検討する。
我々は,これらのディープラーニングモデルの性能を,MEGデータに基づく標準的な線形自己回帰(AR)モデルと比較する。
論文 参考訳(メタデータ) (2024-04-14T13:48:24Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Who's Harry Potter? Approximate Unlearning in LLMs [4.821438899378393]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。
これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。
本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T17:48:14Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - SOLAR: Sparse Orthogonal Learned and Random Embeddings [45.920844071257754]
我々は,高次元および超スパース埋め込みが,クエリ効率と精度の両面において,高密度な低次元埋め込みよりもはるかに優れていると論じている。
我々は,最大3つの公開データセット上で1.6万冊の書籍を検索し,複数ラベルの分類を行うタスクに対して,500K次元のSOLAR埋め込みを訓練する。
それぞれのタスクに対して,最大10倍の高速さで,各タスクの最先端のベースラインと比較して,精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2020-08-30T17:35:35Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。