Fugu-MT 論文翻訳(概要): Sim-GPT: Text Similarity via GPT Annotated Data

論文の概要: Sim-GPT: Text Similarity via GPT Annotated Data

arxiv url: http://arxiv.org/abs/2312.05603v2
Date: Tue, 12 Dec 2023 08:04:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 12:43:43.793386
Title: Sim-GPT: Text Similarity via GPT Annotated Data
Title（参考訳）: Sim-GPT: GPTアノテートデータによるテキスト類似性
Authors: Shuhe Wang, Beiming Cao, Shengyu Zhang, Xiaoya Li, Jiwei Li, Fei Wu, Guoyin Wang, Eduard Hovy
Abstract要約: GPTアノテートデータ(Sim-GPT)を用いたテキスト類似度測定手法を提案する。 Sim-GPTは、BERTまたはRoBERTaをバックボーンとして、一度に生成されたデータセットでトレーニングされる。 Sim-GPTは、広く使用されているSTSの7つのベンチマークでSOTAのパフォーマンスを得る:+0.99 over supervised-SimCSE、+0.42 over the current SOTA PromCSEモデルである。
参考スコア（独自算出の注目度）: 43.00208572114256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to the lack of a large collection of high-quality labeled sentence pairs with textual similarity scores, existing approaches for Semantic Textual Similarity (STS) mostly rely on unsupervised techniques or training signals that are only partially correlated with textual similarity, e.g., NLI-based datasets. To tackle this issue, in this paper, we propose the strategy of measuring text similarity via GPT annotated data (Sim-GPT for short). The core idea of Sim-GPT is to generate data with STS labels using GPT-4, based on which an STS model is trained. Sim-GPT framework utilizes LLMs to provide a substantial amount of reliable annotated data filling the gap of the lack of training signals for STS. Sim-GPT is trained on a one-time generated dataset using BERT or RoBERTa as the backbone, which offers long-term savings in cost and speed compared to repeatedly invoking LLMs for each sentence pair. Trained on the examples from GPT-4 (371K), Sim-GPT yields SOTA performances on the widely-used seven STS benchmarks: +0.99 over supervised-SimCSE, and +0.42 over the current SOTA PromCSE model. To encourage further advancements of the field, we release both models and the 371K annotated examples from GPT-4. Code, models and annotated data are available at: https://github.com/ShuheWang1998/Sim-GPT.
Abstract（参考訳）: テキスト類似度スコアを持つ高品質なラベル付き文対の大規模なコレクションがないため、Semantic Textual similarity (STS) の既存のアプローチは、主に教師なしの技法や、NLIベースのデータセットのようなテキスト類似度に部分的に相関した信号に頼っている。本稿では,GPTアノテートデータ(略してSim-GPT)を用いてテキスト類似度を測定する手法を提案する。 Sim-GPTの中核となる考え方は、STSモデルがトレーニングされていることに基づいて、GPT-4を使用してSTSラベルでデータを生成することである。 Sim-GPT フレームワークは LLM を利用して,STS のトレーニング信号の欠如のギャップを埋める,相当量の信頼できるアノテートデータを提供する。 Sim-GPTはBERTやRoBERTaをバックボーンとして1回生成したデータセットでトレーニングされている。 GPT-4 (371K)の例に基づいて訓練されたSim-GPTは、広く使用されている7つのSTSベンチマークでSOTAのパフォーマンスを出力する:+0.99 over supervised-SimCSE、+0.42 over the current SOTA PromCSEモデル。フィールドのさらなる進歩を促進するため、GPT-4からモデルと371Kの注釈付きサンプルをそれぞれリリースする。コード、モデル、注釈付きデータは、https://github.com/ShuheWang1998/Sim-GPTで入手できる。

関連論文リスト

Adapting Multilingual Models to Code-Mixed Tasks via Model Merging [9.620539727633274]
我々は,コード混合NLPの従来の適応戦略の代替として,モデルマージについて検討した。我々は,XLM-RとLlama-3.2-1Bモデルを用いて,英語・ヒンディー語(En-Hi)と英語・スペイン語(En-Es)の文分類(センチメントとヘイトスピーチ)課題に対するアプローチを評価する。
論文参考訳（メタデータ） (2025-10-22T17:16:23Z)
Annotating Training Data for Conditional Semantic Textual Similarity Measurement using Large Language Models [24.298406471983558]
Deshpande et al. (2023) は条件付きセマンティックテキスト類似性 (Conditional Semantic Textual similarity, C-STS) タスクを提案した。最小限の手作業で、C-STSタスクのための大規模なトレーニングデータセットを再注釈します。クリーンで再注釈されたデータセット上で教師付きC-STSモデルをトレーニングすることにより、スピアマン相関の統計的に有意な改善を5.4%達成する。
論文参考訳（メタデータ） (2025-09-17T20:01:54Z)
SYNAPSE-G: Bridging Large Language Models and Graph Learning for Rare Event Classification [18.14381983478547]
本稿では,SynAPSE-G(Synthetic Augmentation for Positive Smpling via Expansion on Graphs)を提案する。この合成データは、種子と大きなラベルなしデータセットの間に構築された類似性グラフ上に、半教師付きラベル伝搬のためのシードとして機能する。不均衡なSST2とMHSデータセットの実験は、正のラベルを見つける上でSynAPSE-Gの有効性を示す。
論文参考訳（メタデータ） (2025-08-13T06:58:44Z)
L3Cube-MahaEmotions: A Marathi Emotion Recognition Dataset with Synthetic Annotations using CoTR prompting and Large Language Models [0.552480439325792]
L3Cube-MahaEmotionsは,11個の微粒な感情ラベルを持つ高品質なマラーティ感情認識データセットである。トレーニングデータは、大きな言語モデル(LLM)を使用して合成注釈付けされ、検証とテストセットは、信頼できるゴールドスタンダードベンチマークとして手動でラベル付けされる。
論文参考訳（メタデータ） (2025-06-01T07:01:34Z)
KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文参考訳（メタデータ） (2025-05-26T08:38:02Z)
Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation [0.7373617024876725]
本研究では,タスク固有の微調整や,事前学習のための実世界のデータへのアクセスを必要とせずに,高品質な表形式データを生成する能力を示す。 GPT-4oをベンチマークするために、LLM生成合成データの忠実度とプライバシを条件付き生成対向ネットワーク(CTGAN)で生成されたデータと比較した。ゼロショットアプローチにもかかわらず、GPT-4oは保存手段においてCTGANよりも優れ、95%の信頼区間、二変量相関、RWDのデータプライバシが増幅されたサンプルサイズでも優れていた。
論文参考訳（メタデータ） (2025-02-20T12:56:16Z)
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文参考訳（メタデータ） (2024-04-16T17:59:10Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
RETSim: Resilient and Efficient Text Similarity [1.6228944467258688]
RETSimは、テキスト検索、クラスタリング、データセット重複タスクのための堅牢なメトリック埋め込みを生成するためにトレーニングされた、軽量で多言語的なディープラーニングモデルである。我々は、RETSimがMinHashやニューラルテキストの埋め込みよりもはるかに堅牢で正確であることを実証した。また,W4NT3Dベンチマークを用いて,多言語・ほぼ重複したテキスト検索機能の評価を行った。
論文参考訳（メタデータ） (2023-11-28T22:54:33Z)
Automatic Pair Construction for Contrastive Post-training [57.57149781848383]
本稿では,大規模言語モデル(LLM)のためのコントラストデータの自動構築手法を提案する。 SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
論文参考訳（メタデータ） (2023-10-03T17:59:46Z)
GPT-RE: In-context Learning for Relation Extraction using Large Language Models [43.968903620208444]
GPT-REは、関係抽出における大きな言語モデルと完全な教師付きベースラインのギャップを埋める。広く使われている4つのREデータセット上でGPT-REを評価し、GPT-REが既存のGPT-3ベースラインよりも改善されていることを観察した。
論文参考訳（メタデータ） (2023-05-03T13:28:08Z)
GPT-NER: Named Entity Recognition via Large Language Models [58.609582116612934]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。 GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文参考訳（メタデータ） (2023-04-20T16:17:26Z)
Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文参考訳（メタデータ） (2023-04-06T17:58:09Z)
Improving Low-Resource Speech Recognition with Pretrained Speech Models: Continued Pretraining vs. Semi-Supervised Training [6.523198497365586]
wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。単語誤り率 (WER) は半教師あり訓練 (SST) よりも若干優れていた。さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善がもたらされることを示す。
論文参考訳（メタデータ） (2022-07-01T21:02:51Z)
Task-adaptive Pre-training and Self-training are Complementary for Natural Language Understanding [27.459759446031192]
タスク教師あり事前学習(TAPT)と自己学習(ST)は、自然言語理解を改善するための主要な半適応的アプローチとして現れている。 TAPT Fine -> Self-training (TFS) プロセスに従うことで,TAPT と ST は単純なプロトコルで補完可能であることを示す。
論文参考訳（メタデータ） (2021-09-14T06:24:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。