Fugu-MT 論文翻訳(概要): Few-Shot Text Classification with Triplet Networks, Data Augmentation, and Curriculum Learning

論文の概要: Few-Shot Text Classification with Triplet Networks, Data Augmentation, and Curriculum Learning

arxiv url: http://arxiv.org/abs/2103.07552v1
Date: Fri, 12 Mar 2021 22:07:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-18 09:48:03.965223
Title: Few-Shot Text Classification with Triplet Networks, Data Augmentation, and Curriculum Learning
Title（参考訳）: Triplet Networks, Data Augmentation, Curriculum Learning を用いたFew-Shotテキスト分類
Authors: Jason Wei, Chengyu Huang, Soroush Vosoughi, Yu Cheng, Shiqi Xu
Abstract要約: Few-shot テキスト分類は、モデルがテキストを多数のカテゴリに分類することを目的とした基本的な NLP タスクである。本稿では,限られたデータを用いたトレーニングに特に適したデータ拡張について検討する。私たちは、一般的なデータ拡張技術がトリプルトネットワークのパフォーマンスを平均で最大3.0%改善できることを見出します。
参考スコア（独自算出の注目度）: 11.66053357388062
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Few-shot text classification is a fundamental NLP task in which a model aims to classify text into a large number of categories, given only a few training examples per category. This paper explores data augmentation -- a technique particularly suitable for training with limited data -- for this few-shot, highly-multiclass text classification setting. On four diverse text classification tasks, we find that common data augmentation techniques can improve the performance of triplet networks by up to 3.0% on average. To further boost performance, we present a simple training strategy called curriculum data augmentation, which leverages curriculum learning by first training on only original examples and then introducing augmented data as training progresses. We explore a two-stage and a gradual schedule, and find that, compared with standard single-stage training, curriculum data augmentation trains faster, improves performance, and remains robust to high amounts of noising from augmentation.
Abstract（参考訳）: Few-shot テキスト分類は、モデルがテキストを多数のカテゴリに分類することを目的とした基本的な NLP タスクである。本稿では、この数発の高マルチクラスのテキスト分類設定に対して、データ拡張(特に限られたデータによるトレーニングに適したテクニック)について検討する。 4つの多種多様なテキスト分類タスクにおいて,3重項ネットワークの性能を平均3.0%向上させることができることを示す。そこで本研究では,カリキュラムデータ強化という簡単な学習戦略を提案する。この手法は,最初のサンプルのみをトレーニングし,トレーニングの進行とともに拡張データを導入することでカリキュラム学習を活用する。 2段階と段階的なスケジュールを調査し,標準の単段階トレーニングと比較して,カリキュラムデータ拡張トレーニングの高速化,パフォーマンスの向上,強化による高レベルのノイズに対して頑健なままであることを見いだした。

関連論文リスト

Applying LLMs to Active Learning: Towards Cost-Efficient Cross-Task Text Classification without Manually Labeled Data [0.0]
大規模言語モデル(LLM)をアクティブな学習フレームワークに統合する手法を提案する。提案手法は,手動でラベル付けしたデータを必要としないクロスタスクテキスト分類性能を実現する。
論文参考訳（メタデータ） (2025-02-24T06:43:19Z)
Low-Resource Fast Text Classification Based on Intra-Class and Inter-Class Distance Calculation [1.0291559330120414]
LFTCと呼ばれる低リソースかつ高速なテキスト分類モデルを提案する。当社のアプローチは,各クラスに対して,クラス内データ内の正規性情報を完全にマイニングするコンプレッサーリストを構築することから始まります。 LFTCを9つの公開ベンチマークデータセットで評価した結果,性能と処理時間に大きな改善が見られた。
論文参考訳（メタデータ） (2024-12-13T07:22:13Z)
Open-Vocabulary Temporal Action Localization using Multimodal Guidance [67.09635853019005]
OVTALでは、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく、任意のアクションカテゴリをビデオで認識することができる。この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。我々は,ActionFormerを拡張した新しいオープン語彙フレームワークであるOVFormerを紹介した。
論文参考訳（メタデータ） (2024-06-21T18:00:05Z)
Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-06T15:17:51Z)
Text generation for dataset augmentation in security classification tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文参考訳（メタデータ） (2023-10-22T22:25:14Z)
WC-SBERT: Zero-Shot Text Classification via SBERT with Self-Training for Wikipedia Categories [5.652290685410878]
本研究は,NLPにおけるゼロショットテキスト分類問題の解決に重点を置いている。本稿では,テキストではなくラベルを用いた新たな自己学習戦略を提案する。提案手法は,Yahoo Topic と AG News の双方のデータセットに対して,最先端の結果を得られる。
論文参考訳（メタデータ） (2023-07-28T04:17:41Z)
Prefer to Classify: Improving Text Classifiers via Auxiliary Preference Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-08T04:04:47Z)
Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
Teacher Guided Training: An Efficient Framework for Knowledge Transfer [86.6784627427194]
高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。 TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。 TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
論文参考訳（メタデータ） (2022-08-14T10:33:58Z)
Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文参考訳（メタデータ） (2022-06-06T16:11:58Z)
Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文参考訳（メタデータ） (2021-11-17T12:10:03Z)
ProtoDA: Efficient Transfer Learning for Few-Shot Intent Classification [21.933876113300897]
我々は,メタラーニングパラダイムの下で,原型ネットワークを用いた関連するタスクのアンサンブル上での伝達学習による代替的アプローチを採用する。本研究は,意図分類を事例として,学習課題における多様性の増大が,分類性能を著しく向上させることを示した。
論文参考訳（メタデータ） (2021-01-28T00:19:13Z)
Adapting Deep Learning for Sentiment Classification of Code-Switched Informal Short Text [1.6752182911522517]
コードスイッチによる非公式テキストの感情分類のために,MultiSentiというラベル付きデータセットを提案する。コードスイッチトされた非公式短文の感情分類のための深層学習に基づくモデルを提案する。
論文参考訳（メタデータ） (2020-01-04T06:31:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。