論文の概要: Towards General Text Embeddings with Multi-stage Contrastive Learning
- arxiv url: http://arxiv.org/abs/2308.03281v1
- Date: Mon, 7 Aug 2023 03:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:21:45.215415
- Title: Towards General Text Embeddings with Multi-stage Contrastive Learning
- Title(参考訳): 多段階コントラスト学習による汎用テキスト埋め込みに向けて
- Authors: Zehan Li, Xin Zhang, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Meishan
Zhang
- Abstract要約: GTEは多段階のコントラスト学習で訓練された汎用テキスト埋め込みモデルである。
複数の情報源からの多様なデータセットに対してコントラスト学習を用いることで、統一的なテキスト埋め込みモデルを訓練する。
- 参考スコア(独自算出の注目度): 20.803769345818456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present GTE, a general-purpose text embedding model trained with
multi-stage contrastive learning. In line with recent advancements in unifying
various NLP tasks into a single format, we train a unified text embedding model
by employing contrastive learning over a diverse mixture of datasets from
multiple sources. By significantly increasing the number of training data
during both unsupervised pre-training and supervised fine-tuning stages, we
achieve substantial performance gains over existing embedding models. Notably,
even with a relatively modest parameter count of 110M, GTE$_\text{base}$
outperforms the black-box embedding API provided by OpenAI and even surpasses
10x larger text embedding models on the massive text embedding benchmark.
Furthermore, without additional fine-tuning on each programming language
individually, our model outperforms previous best code retrievers of similar
size by treating code as text. In summary, our model achieves impressive
results by effectively harnessing multi-stage contrastive learning, offering a
powerful and efficient text embedding model with broad applicability across
various NLP and code-related tasks.
- Abstract(参考訳): 多段階コントラスト学習で学習した汎用テキスト埋め込みモデルであるGTEを提案する。
各種NLPタスクを単一のフォーマットに統一する最近の進歩に合わせて、複数のソースから多種多様なデータセットを比較学習することで、統一されたテキスト埋め込みモデルを訓練する。
教師なし事前学習および教師なし微調整段階のトレーニングデータを著しく増加させることで,既存の埋め込みモデルよりも大幅な性能向上を実現した。
特に、比較的控えめなパラメータ数が110Mであっても、GTE$_\text{base}$はOpenAIが提供するブラックボックス埋め込みAPIより優れており、巨大なテキスト埋め込みベンチマークで10倍大きなテキスト埋め込みモデルを超えています。
さらに、各プログラミング言語を個別に微調整することなく、同じサイズのコードレトリバーをテキストとして扱うことで、以前のベストなコードレトリバーよりも優れています。
要約すると、本モデルは多段階のコントラスト学習を効果的に活用し、多様なNLPおよびコード関連タスクに適用可能な、強力で効率的なテキスト埋め込みモデルを提供する。
関連論文リスト
- Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Multi-Task Learning for Front-End Text Processing in TTS [15.62497569424995]
テキストから音声のフロントエンドで一般的に解決される3つのタスクを共同で実行するためのマルチタスク学習(MTL)モデルを提案する。
我々のフレームワークは、共有表現を学習するトランクを持つ木のような構造を利用し、その後にタスク固有ヘッドを分離する。
論文 参考訳(メタデータ) (2024-01-12T02:13:21Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - JOIST: A Joint Speech and Text Streaming Model For ASR [63.15848310748753]
JOISTは、音声テキストのペア入力とテキストのみのアンペア入力の両方で、ストリーミング、カスケード、エンコーダエンドツーエンド(E2E)モデルを訓練するアルゴリズムである。
JOISTの最良のテキスト表現は、テキストで訓練されていないモデルと比較して、様々な検索およびレアワードテストセットのWERを4-14%改善することがわかった。
論文 参考訳(メタデータ) (2022-10-13T20:59:22Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Multiple Word Embeddings for Increased Diversity of Representation [15.279850826041066]
本稿では,実行時間の増加を無視できるような,強いベースライン上での性能を実質的に一貫的に向上させる手法を示す。
我々は、事前学習した埋め込み類似性と語彙被覆の側面を分析し、表現多様性がなぜこの技術が機能するかの原動力であることを見出した。
論文 参考訳(メタデータ) (2020-09-30T02:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。