Fugu-MT 論文翻訳(概要): Generating Datasets with Pretrained Language Models

論文の概要: Generating Datasets with Pretrained Language Models

arxiv url: http://arxiv.org/abs/2104.07540v2
Date: Sat, 17 Apr 2021 16:05:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-20 14:53:02.368578
Title: Generating Datasets with Pretrained Language Models
Title（参考訳）: 事前訓練された言語モデルによるデータセットの生成
Authors: Timo Schick and Hinrich Sch\"utze
Abstract要約: ラベル付きデータや微調整や事前学習目的の変更を必要とせずに,大規模言語モデルを用いて高品質な埋め込みを実現する方法を示す。 PLMの生成能力を利用して、ラベル付きテキストペアの全データセットをゼロから生成し、より小さなモデルの定期的な微調整に使用できます。
参考スコア（独自算出の注目度）: 12.919486518128734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To obtain high-quality sentence embeddings from pretrained language models (PLMs), they must either be augmented with additional pretraining objectives or finetuned on a large set of labeled text pairs. While the latter approach typically outperforms the former, it requires great human effort to generate suitable datasets of sufficient size. In this paper, we show how large PLMs can be leveraged to obtain high-quality embeddings without requiring any labeled data, finetuning or modifications to the pretraining objective: We utilize the generative abilities of PLMs to generate entire datasets of labeled text pairs from scratch, which can then be used for regular finetuning of much smaller models. Our fully unsupervised approach outperforms strong baselines on several English semantic textual similarity datasets.
Abstract（参考訳）: 事前学習された言語モデル(plm)から高品質な文埋め込みを得るには、追加の事前学習目的を付加するか、ラベル付きテキストペアで微調整する必要がある。後者のアプローチは一般的に前者よりも優れていますが、十分なサイズの適切なデータセットを生成するには、多大な人的努力が必要です。本稿では、ラベル付きデータや微調整や事前学習目的への修正を必要とせず、いかに大きなPLMが高品質な埋め込みを得るために活用できるかを示す。完全に教師なしのアプローチは、いくつかの英語意味テキスト類似性データセットの強いベースラインを上回る。

関連論文リスト

TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation [50.319535974012]
大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T15:45:28Z)
Large Language Models in the Task of Automatic Validation of Text Classifier Predictions [55.2480439325792]
テキスト分類のための機械学習モデルは、与えられたテキストのクラスを予測するために訓練される。これを行うには、トレーニングと検証のサンプルを用意し、各テキストにクラスを割り当てる必要がある。人間のアノテーションは通常、特定の分類タスクによって異なる専門レベルを持つ人間のアノテーションによって割り当てられる。本稿では,人間のアノテータを大規模言語モデルに置き換えるためのいくつかのアプローチを提案する。
論文参考訳（メタデータ） (2025-05-24T13:19:03Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文参考訳（メタデータ） (2023-11-06T13:11:02Z)
Synthetic Data Generation in Low-Resource Settings via Fine-Tuning of Large Language Models [15.991777903345575]
大規模な言語モデルは、比較的少ないラベル付き例で下流タスクを一般化することができる。あるいは、ラベル付きサンプルを十分に微調整すれば、より小さなモデルで特定のタスクを解くことができる。我々は、より小さなモデルの下流性能を改善するために、微調整教師LEMを用いた微調整訓練データの合成データ生成について検討した。
論文参考訳（メタデータ） (2023-10-02T11:49:05Z)
ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval [22.882301169283323]
一般ドメインの未ラベルコーパスからトレーニングデータを作成するための検索強化フレームワークを提案する。 9つのデータセットの実験では、REGENは最強のベースラインに対して4.3%のゲインを達成し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。
論文参考訳（メタデータ） (2023-05-18T04:30:09Z)
Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文参考訳（メタデータ） (2023-04-24T07:35:38Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)
Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文参考訳（メタデータ） (2022-06-06T16:11:58Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。