Fugu-MT 論文翻訳(概要): Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models

論文の概要: Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models

arxiv url: http://arxiv.org/abs/2405.05374v1
Date: Wed, 8 May 2024 19:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-10 14:52:18.617661
Title: Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models
Title（参考訳）: Arctic-Embed: スケーラブルで効率的で正確なテキスト埋め込みモデル
Authors: Luke Merrick, Danmei Xu, Gaurav Nuti, Daniel Campos,
Abstract要約: 本報告では,テキスト埋込型テキスト埋め込みモデルのファミリの背後にあるトレーニングデータセットの作成とレシピについて述べる。リリース時点で、各モデルはMTEB検索のリーダーボード上で、その大きさのモデルに対する最先端の検索精度を達成した。
参考スコア（独自算出の注目度）: 5.2094499417507105
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This report describes the training dataset creation and recipe behind the family of \texttt{arctic-embed} text embedding models (a set of five models ranging from 22 to 334 million parameters with weights open-sourced under an Apache-2 license). At the time of their release, each model achieved state-of-the-art retrieval accuracy for models of their size on the MTEB Retrieval leaderboard, with the largest model, arctic-embed-l outperforming closed source embedding models such as Cohere's embed-v3 and Open AI's text-embed-3-large. In addition to the details of our training recipe, we have provided several informative ablation studies, which we believe are the cause of our model performance.
Abstract（参考訳）: このレポートでは、‘texttt{arctic-embed}テキスト埋め込みモデル(22～3億3400万のパラメータとApache-2ライセンス下でオープンソース公開されている重みを含む5つのモデル)のファミリの背後にあるトレーニングデータセットの作成とレシピについて説明する。リリース時点で、各モデルはMTEB Retrievalのリーダーボード上で、Cohereのembed-v3やOpen AIのtext-embed-3-largeのような、最大のモデルであるarctic-embed-lのクローズドソース埋め込みモデルで、最先端の検索精度を達成した。トレーニングレシピの詳細に加えて、我々はいくつかの情報的アブレーション研究を行い、それが我々のモデルパフォーマンスの原因であると信じている。

関連論文リスト

Dewey Long Context Embedding Model: A Technical Report [0.0]
dewey_en_betaは、MTEB(Eng, v2)およびLongEmbedベンチマーク上で優れたパフォーマンスを実現する、新しいテキスト埋め込みモデルである。本稿では,オープンソースのdewey_en_beta埋め込みモデルのトレーニング手法と評価結果について述べる。
論文参考訳（メタデータ） (2025-03-26T09:55:00Z)
Granite Embedding Models [26.86244952892162]
本稿では,検索タスク用に設計されたエンコーダベースの埋め込みモデルであるGranite Embeddingモデルを紹介する。本報告では、これらの高効率12層埋込みモデルと、効率的6層蒸留モデルに関する技術的詳細について述べる。私たちは、Apache 2.0ライセンスの下で、Granite Embeddingモデルをすべて公開し、https://huggingface.co/collections/ibm-granite.comで研究と商業の両方が利用可能です。
論文参考訳（メタデータ） (2025-02-27T15:45:16Z)
Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文参考訳（メタデータ） (2025-02-04T18:18:50Z)
Jasper and Stella: distillation of SOTA embedding models [8.708650717134008]
そこで本研究では,より小規模な学生埋め込みモデルにより,複数の教師埋め込みモデルを蒸留できる新しい多段階蒸留フレームワークを提案する。我々は,Matryoshka Representation Learning(MRL)を用いて,学生埋め込みモデルのベクトル次元を効果的に削減する。私たちの学生モデルは、Stella埋め込みモデルに基づく20億のパラメータを持つJasperという名前で、Massive Text Embedding Benchmarkのリーダーボードで3位を獲得しました。
論文参考訳（メタデータ） (2024-12-26T04:05:28Z)
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。 T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文参考訳（メタデータ） (2024-11-22T18:44:04Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文参考訳（メタデータ） (2024-09-25T17:59:51Z)
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文参考訳（メタデータ） (2024-08-16T17:57:01Z)
Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
WAVE: Weight Template for Adaptive Initialization of Variable-sized Models [37.97945436202779]
WAVEは、様々な深さと幅のモデルを初期化する際に、最先端の性能を達成する。 WAVEは、一連のデータセット間で最も効率的な知識伝達を同時に達成する。
論文参考訳（メタデータ） (2024-06-25T12:43:33Z)
A Three-Phases SFT Hybrid Model Integrated Strong Prior Module and Data Overlap Estimation in the Eduation Context [0.0]
教師付き微調整モデルとして,エンド・ツー・エンドの3相モデルを提案する。本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文参考訳（メタデータ） (2024-03-13T05:38:39Z)
Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文参考訳（メタデータ） (2024-02-08T13:47:50Z)
Who's Harry Potter? Approximate Unlearning in LLMs [4.821438899378393]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-03T17:48:14Z)
Abstractive Text Summarization based on Language Model Conditioning and Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文参考訳（メタデータ） (2020-03-29T14:00:17Z)
Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文参考訳（メタデータ） (2020-01-20T15:15:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。