論文の概要: Advancing NLP Models with Strategic Text Augmentation: A Comprehensive
Study of Augmentation Methods and Curriculum Strategies
- arxiv url: http://arxiv.org/abs/2402.09141v1
- Date: Wed, 14 Feb 2024 12:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:33:04.503189
- Title: Advancing NLP Models with Strategic Text Augmentation: A Comprehensive
Study of Augmentation Methods and Curriculum Strategies
- Title(参考訳): ストラテジックテキスト拡張によるNLPモデルの強化:拡張方法とカリキュラム戦略の総合的研究
- Authors: Himmet Toprak Kesgin, Mehmet Fatih Amasyali
- Abstract要約: 本研究では,さまざまなデータセットと自然言語処理(NLP)タスクにまたがるテキスト拡張手法の徹底的な評価を行う。
トピック分類や感情分析,攻撃的言語検出などのタスクにおいて,これらの手法がトレーニングセットを増強し,パフォーマンスを向上させる効果について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study conducts a thorough evaluation of text augmentation techniques
across a variety of datasets and natural language processing (NLP) tasks to
address the lack of reliable, generalized evidence for these methods. It
examines the effectiveness of these techniques in augmenting training sets to
improve performance in tasks such as topic classification, sentiment analysis,
and offensive language detection. The research emphasizes not only the
augmentation methods, but also the strategic order in which real and augmented
instances are introduced during training. A major contribution is the
development and evaluation of Modified Cyclical Curriculum Learning (MCCL) for
augmented datasets, which represents a novel approach in the field. Results
show that specific augmentation methods, especially when integrated with MCCL,
significantly outperform traditional training approaches in NLP model
performance. These results underscore the need for careful selection of
augmentation techniques and sequencing strategies to optimize the balance
between speed and quality improvement in various NLP tasks. The study concludes
that the use of augmentation methods, especially in conjunction with MCCL,
leads to improved results in various classification tasks, providing a
foundation for future advances in text augmentation strategies in NLP.
- Abstract(参考訳): 本研究は,これらの手法の信頼性,一般化された証拠の欠如に対処するため,各種データセットおよび自然言語処理(NLP)タスクにおけるテキスト拡張手法の徹底的な評価を行う。
トピック分類や感情分析,攻撃的言語検出などのタスクにおいて,これらの手法がトレーニングセットを増強し,パフォーマンスを向上させる効果について検討した。
この研究は、強化方法だけでなく、実例と拡張インスタンスがトレーニング中に導入される戦略的順序も強調している。
拡張データセットのための改良型循環型カリキュラム学習(modified cyclical curriculum learning, mccl)の開発と評価が大きな貢献である。
その結果,特にMCCLと統合した場合には,NLPモデルの性能において,従来のトレーニング手法よりも優れていた。
これらの結果は、様々なNLPタスクにおける速度と品質改善のバランスを最適化するための強化手法とシーケンシング戦略を慎重に選択する必要性を浮き彫りにした。
本研究は,特にMCCLと併用した拡張手法を用いることで,様々な分類課題の成果が向上し,NLPにおけるテキスト拡張戦略の今後の進歩の基盤となることを結論付けている。
関連論文リスト
- Improving Academic Skills Assessment with NLP and Ensemble Learning [7.803554057024728]
本研究は,自然言語処理(NLP)の進歩を生かして基礎的学術的スキルを評価する上での課題について論じる。
提案手法は,BERT,RoBERTa,BART,DeBERTa,T5を含む複数の最先端NLPモデルを統合する。
この手法には、詳細なデータ前処理、特徴抽出、モデル性能を最適化するための擬似ラベル学習が含まれる。
論文 参考訳(メタデータ) (2024-09-23T23:43:43Z) - Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - Improving Forward Compatibility in Class Incremental Learning by Increasing Representation Rank and Feature Richness [3.0620294646308754]
本稿では,前方互換性向上を目的としたRFR法を提案する。
本研究は,破滅的忘れ込みを緩和しつつ,新規タスク性能を高めるためのアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-22T11:14:30Z) - Enhancing Effectiveness and Robustness in a Low-Resource Regime via Decision-Boundary-aware Data Augmentation [16.35126275175784]
本稿では,事前訓練された言語モデルを用いて,ロバスト性を高めるための決定境界対応型データ拡張戦略を提案する。
提案手法は、まず、決定境界に近い潜在特徴のシフトに焦点をあて、続いて、ソフトラベル付き曖昧なバージョンを生成する再構成を行う。
論文 参考訳(メタデータ) (2024-03-22T05:18:08Z) - Order Matters in the Presence of Dataset Imbalance for Multilingual
Learning [53.74649778447903]
本稿では,高リソースタスクの事前学習をシンプルかつ効果的に行う方法と,高リソースタスクと低リソースタスクの混合による微調整について述べる。
ニューラルネットワーク翻訳(NMT)と多言語言語モデリングの改善について述べる。
論文 参考訳(メタデータ) (2023-12-11T05:46:57Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - Training Strategies for Improved Lip-reading [61.661446956793604]
本研究では,最先端データ拡張手法,時間モデル,その他のトレーニング戦略の性能について検討する。
すべての手法を組み合わせると、分類精度は93.4%となり、現在の最先端技術よりも4.6%向上した。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することが明らかとなった。
論文 参考訳(メタデータ) (2022-09-03T09:38:11Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Automatic Data Augmentation via Deep Reinforcement Learning for
Effective Kidney Tumor Segmentation [57.78765460295249]
医用画像セグメンテーションのための新しい学習ベースデータ拡張法を開発した。
本手法では,データ拡張モジュールと後続のセグメンテーションモジュールをエンドツーエンドのトレーニング方法で一貫した損失と,革新的に組み合わせる。
提案法の有効性を検証したCT腎腫瘍分節法について,本法を広範囲に評価した。
論文 参考訳(メタデータ) (2020-02-22T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。