論文の概要: Text Embeddings by Weakly-Supervised Contrastive Pre-training
- arxiv url: http://arxiv.org/abs/2212.03533v1
- Date: Wed, 7 Dec 2022 09:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:33:39.568810
- Title: Text Embeddings by Weakly-Supervised Contrastive Pre-training
- Title(参考訳): 弱教師付きコントラスト事前学習によるテキスト埋め込み
- Authors: Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin
Jiang, Rangan Majumder, Furu Wei
- Abstract要約: E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
- 参考スコア(独自算出の注目度): 89.49439036552776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents E5, a family of state-of-the-art text embeddings that
transfer well to a wide range of tasks. The model is trained in a contrastive
manner with weak supervision signals from our curated large-scale text pair
dataset (called CCPairs). E5 can be readily used as a general-purpose embedding
model for any tasks requiring a single-vector representation of texts such as
retrieval, clustering, and classification, achieving strong performance in both
zero-shot and fine-tuned settings. We conduct extensive evaluations on 56
datasets from the BEIR and MTEB benchmarks. For zero-shot settings, E5 is the
first model that outperforms the strong BM25 baseline on the BEIR retrieval
benchmark without using any labeled data. When fine-tuned, E5 obtains the best
results on the MTEB benchmark, beating existing embedding models with 40x more
parameters.
- Abstract(参考訳): 本稿では,多種多様なタスクによく伝達される最先端のテキスト埋め込みであるE5について述べる。
このモデルは,大規模テキストペアデータセット(CCPairs)の弱い監視信号を用いて,対照的に訓練される。
E5は、検索、クラスタリング、分類のようなテキストの単一ベクトル表現を必要とするタスクに対して汎用的な埋め込みモデルとして容易に利用でき、ゼロショットと微調整の両方で強力なパフォーマンスを達成することができる。
BEIRおよびMTEBベンチマークから56のデータセットについて広範囲に評価を行った。
ゼロショット設定の場合、e5はラベル付きデータを使わずにbeir検索ベンチマークで強力なbm25ベースラインを上回る最初のモデルである。
微調整すると、E5はMTEBベンチマークの最良の結果を得ることができ、既存の埋め込みモデルを40倍のパラメータで上回る。
関連論文リスト
- UATVR: Uncertainty-Adaptive Text-Video Retrieval [112.88408952775953]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - BERT-Flow-VAE: A Weakly-supervised Model for Multi-Label Text
Classification [0.5156484100374058]
本稿では,全監督の必要性を低減させる多ラベルテキスト分類モデルであるBERT-Flow-VAE(BFV)を提案する。
6つのマルチラベルデータセットの実験結果から、BFVは他のベースラインWSMLTCモデルをキーメトリクスで大幅に上回る結果が得られた。
論文 参考訳(メタデータ) (2022-10-27T07:18:56Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - SimCLS: A Simple Framework for Contrastive Learning of Abstractive
Summarization [14.16710715347118]
我々は抽象的な要約のための概念的に単純だが経験的に強力なフレームワークSimを提案する。
既存のトップスコアシステムに対して小さな変更を加えることで、Simは既存のトップスコアシステムの性能を大きなマージンで向上させることができる。
提案したモデルの結果はExplainaBoardプラットフォームにデプロイされ、研究者はより詳細な方法でシステムを理解することができる。
論文 参考訳(メタデータ) (2021-06-03T14:34:17Z) - NT5?! Training T5 to Perform Numerical Reasoning [0.8827543048499855]
テキスト上の数値推論(NRoT)は、既存の事前学習目標ではうまく対処できないユニークな課題を提示します。
T5マルチタスクフレームワークを複数の数値推論データセットでトレーニングすることで、手動で分割機能を設計することなく、難易度を高めることができることを示した。
論文 参考訳(メタデータ) (2021-04-15T08:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。