論文の概要: Sim-GPT: Text Similarity via GPT Annotated Data
- arxiv url: http://arxiv.org/abs/2312.05603v2
- Date: Tue, 12 Dec 2023 08:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:43:43.793386
- Title: Sim-GPT: Text Similarity via GPT Annotated Data
- Title(参考訳): Sim-GPT: GPTアノテートデータによるテキスト類似性
- Authors: Shuhe Wang, Beiming Cao, Shengyu Zhang, Xiaoya Li, Jiwei Li, Fei Wu,
Guoyin Wang, Eduard Hovy
- Abstract要約: GPTアノテートデータ(Sim-GPT)を用いたテキスト類似度測定手法を提案する。
Sim-GPTは、BERTまたはRoBERTaをバックボーンとして、一度に生成されたデータセットでトレーニングされる。
Sim-GPTは、広く使用されているSTSの7つのベンチマークでSOTAのパフォーマンスを得る:+0.99 over supervised-SimCSE、+0.42 over the current SOTA PromCSEモデルである。
- 参考スコア(独自算出の注目度): 43.00208572114256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the lack of a large collection of high-quality labeled sentence pairs
with textual similarity scores, existing approaches for Semantic Textual
Similarity (STS) mostly rely on unsupervised techniques or training signals
that are only partially correlated with textual similarity, e.g., NLI-based
datasets. To tackle this issue, in this paper, we propose the strategy of
measuring text similarity via GPT annotated data (Sim-GPT for short). The core
idea of Sim-GPT is to generate data with STS labels using GPT-4, based on which
an STS model is trained. Sim-GPT framework utilizes LLMs to provide a
substantial amount of reliable annotated data filling the gap of the lack of
training signals for STS. Sim-GPT is trained on a one-time generated dataset
using BERT or RoBERTa as the backbone, which offers long-term savings in cost
and speed compared to repeatedly invoking LLMs for each sentence pair. Trained
on the examples from GPT-4 (371K), Sim-GPT yields SOTA performances on the
widely-used seven STS benchmarks: +0.99 over supervised-SimCSE, and +0.42 over
the current SOTA PromCSE model. To encourage further advancements of the field,
we release both models and the 371K annotated examples from GPT-4. Code, models
and annotated data are available at: https://github.com/ShuheWang1998/Sim-GPT.
- Abstract(参考訳): テキスト類似度スコアを持つ高品質なラベル付き文対の大規模なコレクションがないため、Semantic Textual similarity (STS) の既存のアプローチは、主に教師なしの技法や、NLIベースのデータセットのようなテキスト類似度に部分的に相関した信号に頼っている。
本稿では,GPTアノテートデータ(略してSim-GPT)を用いてテキスト類似度を測定する手法を提案する。
Sim-GPTの中核となる考え方は、STSモデルがトレーニングされていることに基づいて、GPT-4を使用してSTSラベルでデータを生成することである。
Sim-GPT フレームワークは LLM を利用して,STS のトレーニング信号の欠如のギャップを埋める,相当量の信頼できるアノテートデータを提供する。
Sim-GPTはBERTやRoBERTaをバックボーンとして1回生成したデータセットでトレーニングされている。
GPT-4 (371K)の例に基づいて訓練されたSim-GPTは、広く使用されている7つのSTSベンチマークでSOTAのパフォーマンスを出力する:+0.99 over supervised-SimCSE、+0.42 over the current SOTA PromCSEモデル。
フィールドのさらなる進歩を促進するため、GPT-4からモデルと371Kの注釈付きサンプルをそれぞれリリースする。
コード、モデル、注釈付きデータは、https://github.com/ShuheWang1998/Sim-GPTで入手できる。
関連論文リスト
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - RETSim: Resilient and Efficient Text Similarity [1.6228944467258688]
RETSimは、テキスト検索、クラスタリング、データセット重複タスクのための堅牢なメトリック埋め込みを生成するためにトレーニングされた、軽量で多言語的なディープラーニングモデルである。
我々は、RETSimがMinHashやニューラルテキストの埋め込みよりもはるかに堅牢で正確であることを実証した。
また,W4NT3Dベンチマークを用いて,多言語・ほぼ重複したテキスト検索機能の評価を行った。
論文 参考訳(メタデータ) (2023-11-28T22:54:33Z) - GPT Paternity Test: GPT Generated Text Detection with GPT Genetic
Inheritance [89.97709633381172]
GPTパタニティテスト(GPT-Pat)を導入する。
原文と生成された再回答テキストとの類似性を比較することにより、本文が機械生成されているか否かを判定することができる。
提案手法は4つの一般化テストセットで平均94.57%の精度を達成し, 最先端のRoBERTa法を12.34%上回った。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - GPT-RE: In-context Learning for Relation Extraction using Large Language
Models [43.968903620208444]
GPT-REは、関係抽出における大きな言語モデルと完全な教師付きベースラインのギャップを埋める。
広く使われている4つのREデータセット上でGPT-REを評価し、GPT-REが既存のGPT-3ベースラインよりも改善されていることを観察した。
論文 参考訳(メタデータ) (2023-05-03T13:28:08Z) - GPT-NER: Named Entity Recognition via Large Language Models [58.609582116612934]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。
GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。
これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文 参考訳(メタデータ) (2023-04-20T16:17:26Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - Improving Low-Resource Speech Recognition with Pretrained Speech Models:
Continued Pretraining vs. Semi-Supervised Training [6.523198497365586]
wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。
単語誤り率 (WER) は半教師あり訓練 (SST) よりも若干優れていた。
さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-07-01T21:02:51Z) - Task-adaptive Pre-training and Self-training are Complementary for
Natural Language Understanding [27.459759446031192]
タスク教師あり事前学習(TAPT)と自己学習(ST)は、自然言語理解を改善するための主要な半適応的アプローチとして現れている。
TAPT Fine -> Self-training (TFS) プロセスに従うことで,TAPT と ST は単純なプロトコルで補完可能であることを示す。
論文 参考訳(メタデータ) (2021-09-14T06:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。