論文の概要: PCC: Paraphrasing with Bottom-k Sampling and Cyclic Learning for
Curriculum Data Augmentation
- arxiv url: http://arxiv.org/abs/2208.08110v1
- Date: Wed, 17 Aug 2022 06:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:38:43.396581
- Title: PCC: Paraphrasing with Bottom-k Sampling and Cyclic Learning for
Curriculum Data Augmentation
- Title(参考訳): PCC: ボトムクサンプリングとサイクルラーニングによるカリキュラムデータ拡張
- Authors: Hongyuan Lu and Wai Lam
- Abstract要約: 本稿では,textbfPCC: textbfParaphrasing with Bottom-k Sampling と textbfCyclic Learning for textbfCurriculum Data Augmentationを提案する。
- 参考スコア(独自算出の注目度): 35.243764555221965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Curriculum Data Augmentation (CDA) improves neural models by presenting
synthetic data with increasing difficulties from easy to hard. However,
traditional CDA simply treats the ratio of word perturbation as the difficulty
measure and goes through the curriculums only once. This paper presents
\textbf{PCC}: \textbf{P}araphrasing with Bottom-k Sampling and \textbf{C}yclic
Learning for \textbf{C}urriculum Data Augmentation, a novel CDA framework via
paraphrasing, which exploits the textual paraphrase similarity as the
curriculum difficulty measure. We propose a curriculum-aware paraphrase
generation module composed of three units: a paraphrase candidate generator
with bottom-k sampling, a filtering mechanism and a difficulty measure. We also
propose a cyclic learning strategy that passes through the curriculums multiple
times. The bottom-k sampling is proposed to generate super-hard instances for
the later curriculums. Experimental results on few-shot text classification as
well as dialogue generation indicate that PCC surpasses competitive baselines.
Human evaluation and extensive case studies indicate that bottom-k sampling
effectively generates super-hard instances, and PCC significantly improves the
baseline dialogue agent.
- Abstract(参考訳): CDA(Curriculum Data Augmentation)は、難易度の高い合成データを提示することで、ニューラルネットワークを改善する。
しかし、従来のCDAは単に単語摂動の比率を難しい尺度として扱い、カリキュラムを1回だけ通過する。
本稿では,ボトムkサンプリングによる\textbf{p}araphrasing と \textbf{c}yclic learning for \textbf{c}urriculum data augmentation,paraphrasingによる新しいcdaフレームワークについて述べる。
本稿では,ボトムクサンプリング付きパラフレーズ候補生成器,フィルタリング機構,難易度測定器の3つのユニットからなるカリキュラム対応パラフレーズ生成モジュールを提案する。
また,カリキュラムを複数回通した循環学習戦略を提案する。
ボトムkサンプリングは、後のカリキュラムでスーパーハードインスタンスを生成するために提案されている。
テキスト分類と対話生成の実験結果は,PCCが競争基準を超えることを示している。
ヒトの評価と広範囲なケーススタディにより、ボトムkサンプリングは超硬度インスタンスを効果的に生成し、PCCはベースライン対話エージェントを著しく改善することが示された。
関連論文リスト
- Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Improving Imbalanced Text Classification with Dynamic Curriculum
Learning [32.731900584216724]
不均衡テキスト分類のための自己評価動的カリキュラム学習手法を提案する。
我々のSPDCLは、適応的なペースからハードペースに適応することで、トレーニングデータの再注文と再サンプル化が困難である。
いくつかの分類タスクの実験は、SPDCL戦略、特に不均衡データセットの有効性を示している。
論文 参考訳(メタデータ) (2022-10-25T07:57:59Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification [11.742065170002162]
Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
論文 参考訳(メタデータ) (2021-12-16T09:56:35Z) - Style Curriculum Learning for Robust Medical Image Segmentation [62.02435329931057]
深部セグメンテーションモデルは、トレーニングデータセットとテストデータセットの間の画像強度の分散シフトによって、しばしば劣化する。
本稿では,そのような分散シフトが存在する場合に,ロバストなセグメンテーションを確保するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-01T08:56:24Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。