論文の概要: Text Embeddings by Weakly-Supervised Contrastive Pre-training
- arxiv url: http://arxiv.org/abs/2212.03533v2
- Date: Thu, 22 Feb 2024 06:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:19:27.935745
- Title: Text Embeddings by Weakly-Supervised Contrastive Pre-training
- Title(参考訳): 弱教師付きコントラスト事前学習によるテキスト埋め込み
- Authors: Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin
Jiang, Rangan Majumder, Furu Wei
- Abstract要約: E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
- 参考スコア(独自算出の注目度): 98.31785569325402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents E5, a family of state-of-the-art text embeddings that
transfer well to a wide range of tasks. The model is trained in a contrastive
manner with weak supervision signals from our curated large-scale text pair
dataset (called CCPairs). E5 can be readily used as a general-purpose embedding
model for any tasks requiring a single-vector representation of texts such as
retrieval, clustering, and classification, achieving strong performance in both
zero-shot and fine-tuned settings. We conduct extensive evaluations on 56
datasets from the BEIR and MTEB benchmarks. For zero-shot settings, E5 is the
first model that outperforms the strong BM25 baseline on the BEIR retrieval
benchmark without using any labeled data. When fine-tuned, E5 obtains the best
results on the MTEB benchmark, beating existing embedding models with 40x more
parameters.
- Abstract(参考訳): 本稿では,多種多様なタスクによく伝達される最先端のテキスト埋め込みであるE5について述べる。
このモデルは,大規模テキストペアデータセット(CCPairs)の弱い監視信号を用いて,対照的に訓練される。
E5は、検索、クラスタリング、分類のようなテキストの単一ベクトル表現を必要とするタスクに対して汎用的な埋め込みモデルとして容易に利用でき、ゼロショットと微調整の両方で強力なパフォーマンスを達成することができる。
BEIRおよびMTEBベンチマークから56のデータセットについて広範囲に評価を行った。
ゼロショット設定の場合、e5はラベル付きデータを使わずにbeir検索ベンチマークで強力なbm25ベースラインを上回る最初のモデルである。
微調整すると、E5はMTEBベンチマークの最良の結果を得ることができ、既存の埋め込みモデルを40倍のパラメータで上回る。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
NV-Embedモデルに様々なアーキテクチャ設計とトレーニング手順を導入する。
我々のモデルは、MTEB(Massive Text Embedding Benchmark)で1位、69.32の最高スコアを記録した。
私たちはこのモデルを、https://face.co/EIR/NV-Embed-v1.comでオープンソース化しました。
論文 参考訳(メタデータ) (2024-05-27T17:59:45Z) - Neural Summarization of Electronic Health Records [8.784162652042957]
本研究では,4つの最先端ニューラルネットワーク要約モデルを用いて,放電要約の様々な部分の自動生成の実現可能性について検討した。
従来の微調整言語モデルでは、レポート全体を要約する性能が向上した。
論文 参考訳(メタデータ) (2023-05-24T15:05:53Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。