論文の概要: Nomic Embed: Training a Reproducible Long Context Text Embedder
- arxiv url: http://arxiv.org/abs/2402.01613v1
- Date: Fri, 2 Feb 2024 18:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 13:47:49.570821
- Title: Nomic Embed: Training a Reproducible Long Context Text Embedder
- Title(参考訳): Nomic Embed: 再現可能な長文埋め込みのトレーニング
- Authors: Zach Nussbaum and John X. Morris and Brandon Duderstadt and Andriy
Mulyar
- Abstract要約: 本報告では,OpenAI Ada および OpenAI Text-embedding-3-small の短文および長文タスクにおける性能に優れた,完全再現性,オープンソース,オープンウェイト,オープンデータ,コンテキスト長8192 の英語テキスト埋め込みモデルである nomic-embed-text-v1 のトレーニングについて述べる。
トレーニングコードとモデルの重み付けをApache 2ライセンスでリリースしています。
- 参考スコア(独自算出の注目度): 1.4945875098530692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report describes the training of nomic-embed-text-v1, the
first fully reproducible, open-source, open-weights, open-data, 8192 context
length English text embedding model that outperforms both OpenAI Ada-002 and
OpenAI text-embedding-3-small on short and long-context tasks. We release the
training code and model weights under an Apache 2 license. In contrast with
other open-source models, we release a training data loader with 235 million
curated text pairs that allows for the full replication of nomic-embed-text-v1.
You can find code and data to replicate the model at
https://github.com/nomic-ai/contrastors
- Abstract(参考訳): この技術レポートでは、OpenAI Ada-002とOpenAI Text-embedding-3-smallの両方をショートおよびロングコンテキストタスクで上回る、完全な再現性、オープンソース、オープンウェイト、オープンデータ、8192コンテキスト長の英語テキスト埋め込みモデルであるnomic-embed-text-v1のトレーニングについて説明する。
トレーニングコードとモデルの重み付けをApache 2ライセンスでリリースしています。
他のオープンソースモデルとは対照的に、2億3500万のキュレートされたテキストペアを持つトレーニングデータローダをリリースし、nomic-embed-text-v1の完全なレプリケーションを可能にします。
モデルはhttps://github.com/nomic-ai/contrastorsで複製できる。
関連論文リスト
- Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models [5.2094499417507105]
本報告では,テキスト埋込型テキスト埋め込みモデルのファミリの背後にあるトレーニングデータセットの作成とレシピについて述べる。
リリース時点で、各モデルはMTEB検索のリーダーボード上で、その大きさのモデルに対する最先端の検索精度を達成した。
論文 参考訳(メタデータ) (2024-05-08T19:05:18Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Text Embeddings Reveal (Almost) As Much As Text [86.5822042193058]
テキストの埋め込みに代表される全文を再構築し,テキストの埋め込みに関する問題点を考察する。
埋め込みに条件付けされたna"iveモデルでは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドでは、正確に32text-token$のテキスト入力を92%の費用で回収できることがわかった。
論文 参考訳(メタデータ) (2023-10-10T17:39:03Z) - Reproducing Whisper-Style Training Using an Open-Source Toolkit and
Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。
OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文 参考訳(メタデータ) (2023-09-25T05:01:34Z) - Vec2Vec: A Compact Neural Network Approach for Transforming Text
Embeddings with High Fidelity [0.0]
我々は、オープンソースの768次元MPNet埋め込みをテキストアダ埋め込みに変換するために、単純なニューラルネットワークを訓練した。
私たちのモデルであるVec2Vecは軽量(80MB)で高速です。
論文 参考訳(メタデータ) (2023-06-22T06:23:31Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Prompt-based Learning for Text Readability Assessment [0.4757470449749875]
可読性評価のための事前学習されたSeq2seqモデルの新規適応を提案する。
与えられた2つのテキストからより難しいテキストを区別するために、Seq2seqモデルを適用できることを実証する。
論文 参考訳(メタデータ) (2023-02-25T18:39:59Z) - Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource
Parallel Data [15.658471125219224]
音声とテキストのマルチモーダル事前学習は有効であることが証明され、ダウンストリーム音声理解タスクの性能が大幅に向上した。
しかし、これらの最先端の訓練済みオーディオテキストモデルは、大量の並列オーディオとテキストデータを提供する場合にのみ、うまく機能する。
本稿では,低リソース並列データを用いた音声テキストモデルの事前学習が可能かどうかを検討する。
論文 参考訳(メタデータ) (2022-04-10T10:25:37Z) - CUE Vectors: Modular Training of Language Models Conditioned on Diverse
Contextual Signals [11.310756148007753]
本稿では,多種多様な文・外部文脈(メタデータを含む)を用いたニューラルネットワークモデルの学習をモジュール化する枠組みを提案する。
我々のアプローチである文脈的普遍埋め込み(CUE)は、日付や著者などの文脈の1つのセットでLMを訓練し、記事タイトルや前文のような新しいメタデータタイプに適応する。
我々は、複数のメタデータ型を持つNYTimesテキストコーパス上でCUEフレームワークを検証する。
論文 参考訳(メタデータ) (2022-03-16T17:37:28Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。