論文の概要: Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models
- arxiv url: http://arxiv.org/abs/2405.05374v1
- Date: Wed, 8 May 2024 19:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:52:18.617661
- Title: Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models
- Title(参考訳): Arctic-Embed: スケーラブルで効率的で正確なテキスト埋め込みモデル
- Authors: Luke Merrick, Danmei Xu, Gaurav Nuti, Daniel Campos,
- Abstract要約: 本報告では,テキスト埋込型テキスト埋め込みモデルのファミリの背後にあるトレーニングデータセットの作成とレシピについて述べる。
リリース時点で、各モデルはMTEB検索のリーダーボード上で、その大きさのモデルに対する最先端の検索精度を達成した。
- 参考スコア(独自算出の注目度): 5.2094499417507105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes the training dataset creation and recipe behind the family of \texttt{arctic-embed} text embedding models (a set of five models ranging from 22 to 334 million parameters with weights open-sourced under an Apache-2 license). At the time of their release, each model achieved state-of-the-art retrieval accuracy for models of their size on the MTEB Retrieval leaderboard, with the largest model, arctic-embed-l outperforming closed source embedding models such as Cohere's embed-v3 and Open AI's text-embed-3-large. In addition to the details of our training recipe, we have provided several informative ablation studies, which we believe are the cause of our model performance.
- Abstract(参考訳): このレポートでは、‘texttt{arctic-embed}テキスト埋め込みモデル(22~3億3400万のパラメータとApache-2ライセンス下でオープンソース公開されている重みを含む5つのモデル)のファミリの背後にあるトレーニングデータセットの作成とレシピについて説明する。
リリース時点で、各モデルはMTEB Retrievalのリーダーボード上で、Cohereのembed-v3やOpen AIのtext-embed-3-largeのような、最大のモデルであるarctic-embed-lのクローズドソース埋め込みモデルで、最先端の検索精度を達成した。
トレーニングレシピの詳細に加えて、我々はいくつかの情報的アブレーション研究を行い、それが我々のモデルパフォーマンスの原因であると信じている。
関連論文リスト
- Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。
本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。
このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文 参考訳(メタデータ) (2025-02-04T18:18:50Z) - Jasper and Stella: distillation of SOTA embedding models [8.708650717134008]
そこで本研究では,より小規模な学生埋め込みモデルにより,複数の教師埋め込みモデルを蒸留できる新しい多段階蒸留フレームワークを提案する。
我々は,Matryoshka Representation Learning(MRL)を用いて,学生埋め込みモデルのベクトル次元を効果的に削減する。
私たちの学生モデルは、Stella埋め込みモデルに基づく20億のパラメータを持つJasperという名前で、Massive Text Embedding Benchmarkのリーダーボードで3位を獲得しました。
論文 参考訳(メタデータ) (2024-12-26T04:05:28Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - WAVE: Weight Template for Adaptive Initialization of Variable-sized Models [37.97945436202779]
WAVEは、様々な深さと幅のモデルを初期化する際に、最先端の性能を達成する。
WAVEは、一連のデータセット間で最も効率的な知識伝達を同時に達成する。
論文 参考訳(メタデータ) (2024-06-25T12:43:33Z) - A Three-Phases SFT Hybrid Model Integrated Strong Prior Module and Data Overlap Estimation in the Eduation Context [0.0]
教師付き微調整モデルとして,エンド・ツー・エンドの3相モデルを提案する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。