論文の概要: Generation-driven Contrastive Self-training for Zero-shot Text
Classification with Instruction-tuned GPT
- arxiv url: http://arxiv.org/abs/2304.11872v1
- Date: Mon, 24 Apr 2023 07:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:49:21.024206
- Title: Generation-driven Contrastive Self-training for Zero-shot Text
Classification with Instruction-tuned GPT
- Title(参考訳): インストラクションチューニングGPTを用いたゼロショットテキスト分類のためのジェネレーション駆動コントラスト自己学習
- Authors: Ruohong Zhang, Yau-Shian Wang, Yiming Yang
- Abstract要約: GPTベースのゼロショット分類モデルは、テストインスタンスに対して独立した予測を行う傾向がある。
ゼロショットテキスト分類,すなわち我々のモデルショートに対する新しいアプローチを提案する。
我々の実験では、GenCoは複数のベンチマークデータセットで過去の最先端メソッドよりも優れています。
- 参考スコア(独自算出の注目度): 34.72390716758837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Moreover, GPT-based zero-shot classification models tend to make independent
predictions over test instances, which can be sub-optimal as the instance
correlations and the decision boundaries in the target space are ignored. To
address these difficulties and limitations, we propose a new approach to
zero-shot text classification, namely \ourmodelshort, which leverages the
strong generative power of GPT to assist in training a smaller, more adaptable,
and efficient sentence encoder classifier with contrastive self-training.
Specifically, GenCo applies GPT in two ways: firstly, it generates multiple
augmented texts for each input instance to enhance the semantic embedding of
the instance and improve the mapping to relevant labels; secondly, it generates
augmented texts conditioned on the predicted label during self-training, which
makes the generative process tailored to the decision boundaries in the target
space. In our experiments, GenCo outperforms previous state-of-the-art methods
on multiple benchmark datasets, even when only limited in-domain text data is
available.
- Abstract(参考訳): さらに、GPTベースのゼロショット分類モデルでは、テストインスタンスに対して独立した予測を行う傾向があり、インスタンス相関や対象空間における決定境界が無視されるため、サブ最適となる。
このような困難や制約に対処するために,GPTの強靭な生成力を活用して,より小さく,適応性が高く,かつ効率的な文エンコーダ分類器の訓練を支援する,ゼロショットテキスト分類法である‘ourmodelshort’を提案する。
具体的には、GenCoはGPTを2つの方法で適用する: まず、入力インスタンス毎に複数の拡張テキストを生成し、インスタンスのセマンティック埋め込みを強化し、関連するラベルへのマッピングを改善する。
我々の実験では、GenCoは、ドメイン内テキストデータに制限がある場合でも、複数のベンチマークデータセット上で従来の最先端メソッドよりも優れています。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。