論文の概要: Improving Imbalanced Text Classification with Dynamic Curriculum
Learning
- arxiv url: http://arxiv.org/abs/2210.14724v1
- Date: Tue, 25 Oct 2022 07:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:11:31.296485
- Title: Improving Imbalanced Text Classification with Dynamic Curriculum
Learning
- Title(参考訳): 動的カリキュラム学習による不均衡テキスト分類の改善
- Authors: Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao
- Abstract要約: 不均衡テキスト分類のための自己評価動的カリキュラム学習手法を提案する。
我々のSPDCLは、適応的なペースからハードペースに適応することで、トレーニングデータの再注文と再サンプル化が困難である。
いくつかの分類タスクの実験は、SPDCL戦略、特に不均衡データセットの有効性を示している。
- 参考スコア(独自算出の注目度): 32.731900584216724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in pre-trained language models have improved the performance
for text classification tasks. However, little attention is paid to the
priority scheduling strategy on the samples during training. Humans acquire
knowledge gradually from easy to complex concepts, and the difficulty of the
same material can also vary significantly in different learning stages.
Inspired by this insights, we proposed a novel self-paced dynamic curriculum
learning (SPDCL) method for imbalanced text classification, which evaluates the
sample difficulty by both linguistic character and model capacity. Meanwhile,
rather than using static curriculum learning as in the existing research, our
SPDCL can reorder and resample training data by difficulty criterion with an
adaptive from easy to hard pace. The extensive experiments on several
classification tasks show the effectiveness of SPDCL strategy, especially for
the imbalanced dataset.
- Abstract(参考訳): 事前訓練された言語モデルの最近の進歩は、テキスト分類タスクの性能を改善した。
しかし,訓練中のサンプルの優先度スケジューリング戦略にはほとんど注意が払われていない。
人間は、容易から複雑な概念から徐々に知識を獲得し、同じ素材の難しさは、異なる学習段階において大きく異なる。
この知見に触発されて、不均衡テキスト分類のための新しい自己評価動的カリキュラム学習法(SPDCL)を提案し、言語的特徴とモデル能力の両方でサンプルの難易度を評価する。
一方、spdclは、既存の研究のように静的なカリキュラム学習を使うのではなく、簡単なペースから難しいペースに適応して、難易度基準によってトレーニングデータを並べ替え、再サンプルすることができます。
複数の分類タスクに関する広範な実験は、特に不均衡データセットに対するspdcl戦略の有効性を示している。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - A Psychology-based Unified Dynamic Framework for Curriculum Learning [5.410910735259908]
本稿では、心理学に基づくカリキュラム学習のための統一動的フレームワーク(PUDF)を提案する。
我々は、人工集団(AC)からの応答にIRT(Item Response Theory)を適用して、データトレーニングの難しさを定量化する。
本稿では,モデル学習中に適切なデータ量をスケジュールするDDS-MAE戦略を提案する。
論文 参考訳(メタデータ) (2024-08-09T20:30:37Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Curriculum Learning with Diversity for Supervised Computer Vision Tasks [1.5229257192293197]
本稿では,学習データの多様性と入力の難しさを考慮に入れた,新たなカリキュラムサンプリング戦略を提案する。
我々は、我々の戦略が不均衡なデータセットに対して非常に効率的であることを証明し、より高速な収束とより正確な結果をもたらす。
論文 参考訳(メタデータ) (2020-09-22T15:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。