論文の概要: Text and Code Embeddings by Contrastive Pre-Training
- arxiv url: http://arxiv.org/abs/2201.10005v1
- Date: Mon, 24 Jan 2022 23:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 08:19:12.285730
- Title: Text and Code Embeddings by Contrastive Pre-Training
- Title(参考訳): 対照的な事前学習によるテキストとコード埋め込み
- Authors: Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael
Han, Jerry Tworek, Qiming Yuan, Nikolas Tezak, Jong Wook Kim, Chris Hallacy,
Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish
Sastry, Gretchen Krueger, David Schnurr, Felipe Petroski Such, Kenny Hsu,
Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter
Welinder, Lilian Weng
- Abstract要約: 教師なしデータに対する対照的な事前学習は、テキストとコードの高品質なベクトル表現につながることを示す。
線形プローブ分類における新しい最先端結果を実現するような教師なしのテキスト埋め込みも同様に、印象的なセマンティック検索機能も備えている。
- 参考スコア(独自算出の注目度): 15.099849247795714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text embeddings are useful features in many applications such as semantic
search and computing text similarity. Previous work typically trains models
customized for different use cases, varying in dataset choice, training
objective and model architecture. In this work, we show that contrastive
pre-training on unsupervised data at scale leads to high quality vector
representations of text and code. The same unsupervised text embeddings that
achieve new state-of-the-art results in linear-probe classification also
display impressive semantic search capabilities and sometimes even perform
competitively with fine-tuned models. On linear-probe classification accuracy
averaging over 7 tasks, our best unsupervised model achieves a relative
improvement of 4% and 1.8% over previous best unsupervised and supervised text
embedding models respectively. The same text embeddings when evaluated on
large-scale semantic search attains a relative improvement of 23.4%, 14.7%, and
10.6% over previous best unsupervised methods on MSMARCO, Natural Questions and
TriviaQA benchmarks, respectively. Similarly to text embeddings, we train code
embedding models on (text, code) pairs, obtaining a 20.8% relative improvement
over prior best work on code search.
- Abstract(参考訳): テキスト埋め込みはセマンティック検索やテキスト類似性の計算など、多くのアプリケーションで有用な機能である。
以前の作業は通常、データセットの選択、トレーニング目標、モデルアーキテクチャなど、さまざまなユースケース用にカスタマイズされたモデルをトレーニングします。
本研究では,教師なしデータに対する大規模な事前学習がテキストとコードの高品質なベクトル表現につながることを示す。
線形プローブ分類における新しい最先端結果を実現するのと同じ教師なしのテキスト埋め込みは、印象的なセマンティック検索能力を示し、時には微調整されたモデルと競合することもある。
7つのタスクを平均する線形プローブ分類精度について,最良教師なしモデルでは,従来の最良教師なしおよび教師なしテキスト埋め込みモデルと比較して,4%および1.8%の相対的改善を達成している。
同じテキストを大規模意味検索で評価すると、msmarco、natural questions、triviaqaベンチマークで比較して、23.4%、14.7%、10.6%の相対的な改善が得られる。
テキスト埋め込みと同様に、コード埋め込みモデルを(テキスト、コード)ペアでトレーニングし、コード検索における以前の最高の作業よりも20.8%改善した。
関連論文リスト
- Telling Left from Right: Identifying Geometry-Aware Semantic
Correspondence [84.72996365404228]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
我々は既存の動物ポーズ推定データセットから構築された意味対応のための新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Towards General Text Embeddings with Multi-stage Contrastive Learning [20.803769345818456]
GTEは多段階のコントラスト学習で訓練された汎用テキスト埋め込みモデルである。
複数の情報源からの多様なデータセットに対してコントラスト学習を用いることで、統一的なテキスト埋め込みモデルを訓練する。
論文 参考訳(メタデータ) (2023-08-07T03:52:59Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Prompt-based Learning for Text Readability Assessment [0.5076419064097734]
可読性評価のための事前学習されたSeq2seqモデルの新規適応を提案する。
与えられた2つのテキストからより難しいテキストを区別するために、Seq2seqモデルを適用できることを実証する。
論文 参考訳(メタデータ) (2023-02-25T18:39:59Z) - SAT: Improving Semi-Supervised Text Classification with Simple
Instance-Adaptive Self-Training [19.879452265836917]
本研究は、半教師付きテキスト分類のための簡易なインスタンス適応自己学習法(SAT)を提案する。
SATはまず、ラベルのない各データに対して2つの拡張ビューを生成し、次にメタラーナーを訓練して、拡張の相対的な強度を自動的に識別する。
論文 参考訳(メタデータ) (2022-10-23T08:19:58Z) - JOIST: A Joint Speech and Text Streaming Model For ASR [63.15848310748753]
JOISTは、音声テキストのペア入力とテキストのみのアンペア入力の両方で、ストリーミング、カスケード、エンコーダエンドツーエンド(E2E)モデルを訓練するアルゴリズムである。
JOISTの最良のテキスト表現は、テキストで訓練されていないモデルと比較して、様々な検索およびレアワードテストセットのWERを4-14%改善することがわかった。
論文 参考訳(メタデータ) (2022-10-13T20:59:22Z) - Search and Learn: Improving Semantic Coverage for Data-to-Text
Generation [30.07712039293558]
本研究では,テキスト生成に焦点をあてる。
本稿では,事前学習された言語モデルを活用する検索学習手法を提案する。
実験の結果,E2E と WikiBio のデータセットで高い性能が得られた。
論文 参考訳(メタデータ) (2021-12-06T03:51:56Z) - Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文 参考訳(メタデータ) (2021-03-12T09:19:14Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。