論文の概要: Improving Text Embeddings with Large Language Models
- arxiv url: http://arxiv.org/abs/2401.00368v1
- Date: Sun, 31 Dec 2023 02:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 17:40:02.704963
- Title: Improving Text Embeddings with Large Language Models
- Title(参考訳): 大規模言語モデルによるテキスト埋め込みの改善
- Authors: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder,
Furu Wei
- Abstract要約: 合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
- 参考スコア(独自算出の注目度): 63.503320030117145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel and simple method for obtaining
high-quality text embeddings using only synthetic data and less than 1k
training steps. Unlike existing methods that often depend on multi-stage
intermediate pre-training with billions of weakly-supervised text pairs,
followed by fine-tuning with a few labeled datasets, our method does not
require building complex training pipelines or relying on manually collected
datasets that are often constrained by task diversity and language coverage. We
leverage proprietary LLMs to generate diverse synthetic data for hundreds of
thousands of text embedding tasks across nearly 100 languages. We then
fine-tune open-source decoder-only LLMs on the synthetic data using standard
contrastive loss. Experiments demonstrate that our method achieves strong
performance on highly competitive text embedding benchmarks without using any
labeled data. Furthermore, when fine-tuned with a mixture of synthetic and
labeled data, our model sets new state-of-the-art results on the BEIR and MTEB
benchmarks.
- Abstract(参考訳): 本稿では,合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現する方法を提案する。
数十億の弱い教師付きテキストペアを持つ多段階の中間訓練にしばしば依存する既存の方法とは異なり、ラベル付きデータセットによる微調整は複雑なトレーニングパイプラインの構築や、タスクの多様性や言語カバレッジに制約されるような手作業によるデータセットに頼る必要がない。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
次に、標準コントラスト損失を用いた合成データ上に、オープンソースデコーダのみを微調整する。
本手法は,ラベル付きデータを用いずに,高い競合性を持つテキスト埋め込みベンチマークにおいて,強力な性能を実現することを実証する。
さらに、合成データとラベルデータの混合を微調整すると、BEIRおよびMTEBベンチマークに新たな最先端結果が設定される。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
8つのベンチマークで1億6000万のパラメータスケールで事前トレーニングを行う場合,提案手法は各ベンチマークにおいてDSIRよりも優れる。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - FuseGen: PLM Fusion for Data-generation based Zero-shot Learning [18.51772808242954]
FuseGenは、新しいデータ生成ベースのゼロショット学習フレームワークである。
合成データセットからのサブセット選択のための新しい基準を導入する。
選択されたサブセットは、各PLMに対してコンテキスト内フィードバックを提供し、データセットの品質を向上する。
論文 参考訳(メタデータ) (2024-06-18T11:55:05Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Towards General Text Embeddings with Multi-stage Contrastive Learning [20.803769345818456]
GTEは多段階のコントラスト学習で訓練された汎用テキスト埋め込みモデルである。
複数の情報源からの多様なデータセットに対してコントラスト学習を用いることで、統一的なテキスト埋め込みモデルを訓練する。
論文 参考訳(メタデータ) (2023-08-07T03:52:59Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。