論文の概要: Sim-GPT: Text Similarity via GPT Annotated Data
- arxiv url: http://arxiv.org/abs/2312.05603v1
- Date: Sat, 9 Dec 2023 16:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:46:49.280146
- Title: Sim-GPT: Text Similarity via GPT Annotated Data
- Title(参考訳): Sim-GPT: GPTアノテートデータによるテキスト類似性
- Authors: Shuhe Wang, Beiming Cao, Shengyu Zhang, Xiaoya Li, Jiwei Li, Fei Wu,
Guoyin Wang, Eduard Hovy
- Abstract要約: GPTアノテートデータ(Sim-GPT)を用いたテキスト類似度測定手法を提案する。
Sim-GPTは、BERTまたはRoBERTaをバックボーンとして、一度に生成されたデータセットでトレーニングされる。
Sim-GPTは、広く使用されているSTSの7つのベンチマークでSOTAのパフォーマンスを得る:+0.99 over supervised-SimCSE、+0.42 over the current SOTA PromCSEモデルである。
- 参考スコア(独自算出の注目度): 43.00208572114256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the lack of a large collection of high-quality labeled sentence pairs
with textual similarity scores, existing approaches for Semantic Textual
Similarity (STS) mostly rely on unsupervised techniques or training signals
that are only partially correlated with textual similarity, e.g., NLI-based
datasets. To tackle this issue, in this paper, we propose the strategy of
measuring text similarity via GPT annotated data (Sim-GPT for short). The core
idea of Sim-GPT is to generate data with STS labels using GPT-4, based on which
an STS model is trained. Sim-GPT framework utilizes LLMs to provide a
substantial amount of reliable annotated data filling the gap of the lack of
training signals for STS. Sim-GPT is trained on a one-time generated dataset
using BERT or RoBERTa as the backbone, which offers long-term savings in cost
and speed compared to repeatedly invoking LLMs for each sentence pair. Trained
on the examples from GPT-4 (371K), Sim-GPT yields SOTA performances on the
widely-used seven STS benchmarks: +0.99 over supervised-SimCSE, and +0.42 over
the current SOTA PromCSE model. To encourage further advancements of the field,
we release both models and the 371K annotated examples from GPT-4. Code, models
and annotated data are available at: https://github.com/ShuheWang1998/Sim-GPT.
- Abstract(参考訳): テキスト類似度スコアを持つ高品質なラベル付き文対の大規模なコレクションがないため、Semantic Textual similarity (STS) の既存のアプローチは、主に教師なしの技法や、NLIベースのデータセットのようなテキスト類似度に部分的に相関した信号に頼っている。
本稿では,GPTアノテートデータ(略してSim-GPT)を用いてテキスト類似度を測定する手法を提案する。
Sim-GPTの中核となる考え方は、STSモデルがトレーニングされていることに基づいて、GPT-4を使用してSTSラベルでデータを生成することである。
Sim-GPT フレームワークは LLM を利用して,STS のトレーニング信号の欠如のギャップを埋める,相当量の信頼できるアノテートデータを提供する。
Sim-GPTはBERTやRoBERTaをバックボーンとして1回生成したデータセットでトレーニングされている。
GPT-4 (371K)の例に基づいて訓練されたSim-GPTは、広く使用されている7つのSTSベンチマークでSOTAのパフォーマンスを出力する:+0.99 over supervised-SimCSE、+0.42 over the current SOTA PromCSEモデル。
フィールドのさらなる進歩を促進するため、GPT-4からモデルと371Kの注釈付きサンプルをそれぞれリリースする。
コード、モデル、注釈付きデータは、https://github.com/ShuheWang1998/Sim-GPTで入手できる。
関連論文リスト
- MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。
GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。
評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - RETSim: Resilient and Efficient Text Similarity [1.6228944467258688]
RETSimは、テキスト検索、クラスタリング、データセット重複タスクのための堅牢なメトリック埋め込みを生成するためにトレーニングされた、軽量で多言語的なディープラーニングモデルである。
我々は、RETSimがMinHashやニューラルテキストの埋め込みよりもはるかに堅牢で正確であることを実証した。
また,W4NT3Dベンチマークを用いて,多言語・ほぼ重複したテキスト検索機能の評価を行った。
論文 参考訳(メタデータ) (2023-11-28T22:54:33Z) - Automatic Pair Construction for Contrastive Post-training [57.57149781848383]
本稿では,大規模言語モデル(LLM)のためのコントラストデータの自動構築手法を提案する。
SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。
また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - GPT-RE: In-context Learning for Relation Extraction using Large Language
Models [43.968903620208444]
GPT-REは、関係抽出における大きな言語モデルと完全な教師付きベースラインのギャップを埋める。
広く使われている4つのREデータセット上でGPT-REを評価し、GPT-REが既存のGPT-3ベースラインよりも改善されていることを観察した。
論文 参考訳(メタデータ) (2023-05-03T13:28:08Z) - GPT-NER: Named Entity Recognition via Large Language Models [58.609582116612934]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。
GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。
これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文 参考訳(メタデータ) (2023-04-20T16:17:26Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z) - Improving Low-Resource Speech Recognition with Pretrained Speech Models:
Continued Pretraining vs. Semi-Supervised Training [6.523198497365586]
wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。
単語誤り率 (WER) は半教師あり訓練 (SST) よりも若干優れていた。
さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-07-01T21:02:51Z) - Task-adaptive Pre-training and Self-training are Complementary for
Natural Language Understanding [27.459759446031192]
タスク教師あり事前学習(TAPT)と自己学習(ST)は、自然言語理解を改善するための主要な半適応的アプローチとして現れている。
TAPT Fine -> Self-training (TFS) プロセスに従うことで,TAPT と ST は単純なプロトコルで補完可能であることを示す。
論文 参考訳(メタデータ) (2021-09-14T06:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。