論文の概要: SGPT: GPT Sentence Embeddings for Semantic Search
- arxiv url: http://arxiv.org/abs/2202.08904v2
- Date: Mon, 21 Feb 2022 17:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 12:04:21.803705
- Title: SGPT: GPT Sentence Embeddings for Semantic Search
- Title(参考訳): SGPT:意味検索のためのGPT文埋め込み
- Authors: Niklas Muennighoff
- Abstract要約: SGPT-BE と SGPT-CE を用いて,GPT モデルをバイエンコーダやクロスエンコーダとして対称探索や非対称探索に適用する。
580億のパラメータSGPT-BEは、BEIRに新しい最先端を設定すれば、最高の文埋め込みを6%上回る。
610億のパラメータSGPT-CEは、BEIR上で教師なしの最先端を設定する。
- 参考スコア(独自算出の注目度): 2.181533029179255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPT transformers are the largest language models available, yet semantic
search is dominated by BERT transformers. We present SGPT-BE and SGPT-CE for
applying GPT models as Bi-Encoders or Cross-Encoders to symmetric or asymmetric
search.
SGPT-BE produces semantically meaningful sentence embeddings by contrastive
fine-tuning of only bias tensors and a novel pooling method. A 5.8 billion
parameter SGPT-BE outperforms the best available sentence embeddings by 6%
setting a new state-of-the-art on BEIR. It outperforms the concurrently
proposed OpenAI Embeddings of the 175B Davinci endpoint, which fine-tunes
250,000 times more parameters.
SGPT-CE uses log probabilities from GPT models without any fine-tuning. A 6.1
billion parameter SGPT-CE sets an unsupervised state-of-the-art on BEIR. It
beats the supervised state-of-the-art on 7 datasets, but significantly loses on
other datasets. We show how this can be alleviated by adapting the prompt.
SGPT-BE and SGPT-CE performance scales with model size. Yet, increased
latency, storage and compute costs should be considered. Code, models and
result files are freely available at https://github.com/Muennighoff/sgpt.
- Abstract(参考訳): GPT変換器は利用可能な最大の言語モデルであるが、セマンティック検索はBERT変換器が支配している。
SGPT-BE と SGPT-CE を用いて,GPT モデルをバイエンコーダやクロスエンコーダとして対称探索や非対称探索に適用する。
SGPT-BEは、バイアステンソルのみを対照的に微調整し、意味的に意味のある文埋め込みを生成する。
580億のパラメータSGPT-BEは、BEIRに新しい最先端を設定すれば、最高の文埋め込みを6%上回る。
同時に提案された175B DavinciエンドポイントのOpenAI Embeddingよりも優れており、パラメータは25万倍も微調整されている。
SGPT-CEは微調整なしでGPTモデルのログ確率を使用する。
610億のパラメータSGPT-CEは、BEIR上で教師なしの最先端を設定する。
7つのデータセットの教師付き最先端を破るが、他のデータセットでは著しく失われる。
プロンプトに適応することで、どのように緩和できるかを示す。
SGPT-BEとSGPT-CEはモデルサイズでスケールする。
しかし、レイテンシ、ストレージ、計算コストの増加を考慮すべきである。
コード、モデル、結果ファイルはhttps://github.com/Muennighoff/sgpt.comから無料で入手できる。
関連論文リスト
- GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.71952325015267]
PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。
本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。
本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
論文 参考訳(メタデータ) (2024-07-05T14:16:47Z) - BERT vs GPT for financial engineering [0.0]
論文は、これらのモデルがニュースイベントから感情を判断する方法を示すために、いくつかのTransformerモデルをベンチマークする。
細調整されたBERTモデルは,細調整されたGPTモデルやバニラGPTモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-24T11:30:04Z) - Endowing Pre-trained Graph Models with Provable Fairness [49.8431177748876]
証明可能な公正性を持つ事前学習グラフモデル(GraphPAR)を実現する新しいアダプタチューニングフレームワークを提案する。
具体的には、各ノードに対して異なる属性意味を持つノード表現を拡張するために、ノード表現に対するセンシティブなセマンティックオーグメンタを設計する。
GraphPARでは、各ノードの公平性が証明可能であるかどうか、すなわち、予測が特定の機密属性セマンティクスの範囲内で常に公平であるかどうかを定量化する。
論文 参考訳(メタデータ) (2024-02-19T14:16:08Z) - Sim-GPT: Text Similarity via GPT Annotated Data [43.00208572114256]
GPTアノテートデータ(Sim-GPT)を用いたテキスト類似度測定手法を提案する。
Sim-GPTは、BERTまたはRoBERTaをバックボーンとして、一度に生成されたデータセットでトレーニングされる。
Sim-GPTは、広く使用されているSTSの7つのベンチマークでSOTAのパフォーマンスを得る:+0.99 over supervised-SimCSE、+0.42 over the current SOTA PromCSEモデルである。
論文 参考訳(メタデータ) (2023-12-09T16:10:23Z) - On Sarcasm Detection with OpenAI GPT-based Models [0.0]
サルカズム(Sarcasm)は、読者やリスナーが文脈や社会的手がかりを考慮し、意図した意味を解釈することを要求する皮肉の一形態である。
機械学習の分類モデルは、その社会的複雑さと矛盾する性質のために、長い間、皮肉を検出するのに難しかった。
本稿では, GPT-3, InstructGPT, GPT-3.5, GPT-4 などの生成事前学習型トランスフォーマ(GPT)モデルを用いて, 自然言語の皮肉を検出する手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T19:00:56Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - InheritSumm: A General, Versatile and Compact Summarizer by Distilling
from GPT [75.29359361404073]
InheritSummは、蒸留によりGPT-3.5から派生した汎用的でコンパクトな要約モデルである。
GPT-3.5と同様、ゼロショットやスプリットショットの設定でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T14:52:32Z) - SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot [29.284147465251685]
大規模生成事前学習型トランスフォーマー(GPT)ファミリーモデルが1ショットで少なくとも50%の間隔で切断できることを初めて示す。
これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
我々は,最大規模のオープンソースモデルであるOPT-175BとBLOOM-176B上で,4.5時間以内でSparseGPTを実行することができる。
論文 参考訳(メタデータ) (2023-01-02T17:48:56Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。