論文の概要: BDA: Bangla Text Data Augmentation Framework
- arxiv url: http://arxiv.org/abs/2412.08753v1
- Date: Wed, 11 Dec 2024 19:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:40.144423
- Title: BDA: Bangla Text Data Augmentation Framework
- Title(参考訳): BDA: Bangla Text Data Augmentation Framework
- Authors: Md. Tariquzzaman, Audwit Nafi Anam, Naimul Haque, Mohsinul Kabir, Hasan Mahmud, Md Kamrul Hasan,
- Abstract要約: 高品質なデータが不足しているリソース制限フィールドでは、トレーニングデータの量を増やす上で、拡張が重要な役割を果たす。
本稿では、事前学習されたモデルとルールベースの手法の両方を用いて、テキストの新しい変種を生成するBangla Text Data Augmentation Frameworkを提案する。
- 参考スコア(独自算出の注目度): 3.639885019250394
- License:
- Abstract: Data augmentation involves generating synthetic samples that resemble those in a given dataset. In resource-limited fields where high-quality data is scarce, augmentation plays a crucial role in increasing the volume of training data. This paper introduces a Bangla Text Data Augmentation (BDA) Framework that uses both pre-trained models and rule-based methods to create new variants of the text. A filtering process is included to ensure that the new text keeps the same meaning as the original while also adding variety in the words used. We conduct a comprehensive evaluation of the framework's effectiveness in Bangla text classification tasks. Our framework achieved significant improvement in F1 scores across five distinct datasets, delivering performance equivalent to models trained on 100\% of the data while utilizing only 50\% of the training dataset. Additionally, we explore the impact of data scarcity by progressively reducing the training data and augmenting it through BDA, resulting in notable F1 score enhancements. The study offers a thorough examination of BDA's performance, identifying key factors for optimal results and addressing its limitations through detailed analysis.
- Abstract(参考訳): データ拡張には、所定のデータセットに類似した合成サンプルを生成することが含まれる。
高品質なデータが不足しているリソース制限フィールドでは、トレーニングデータの量を増やす上で、拡張が重要な役割を果たす。
本稿では,Bangla Text Data Augmentation (BDA)フレームワークを提案する。
フィルタ処理は、新しいテキストが元のテキストと同じ意味を維持しつつ、使用する単語の多様性を付加することを保証するためのものである。
我々は,Banglaテキスト分類タスクにおいて,フレームワークの有効性を総合的に評価する。
当社のフレームワークは、5つの異なるデータセットでF1スコアを大幅に改善し、トレーニングデータセットの50%しか利用せず、100\%のデータでトレーニングされたモデルに匹敵するパフォーマンスを提供しました。
さらに、トレーニングデータを段階的に削減し、BDAを通じて拡張することにより、データ不足の影響について検討し、F1スコアの顕著な向上を実現した。
この研究は、BDAのパフォーマンスを徹底的に検証し、最適な結果の鍵となる要因を特定し、詳細な分析を通じてその限界に対処する。
関連論文リスト
- Reducing and Exploiting Data Augmentation Noise through Meta Reweighting
Contrastive Learning for Text Classification [3.9889306957591755]
本稿では,テキスト分類タスクにおける拡張データ/サンプルを用いたディープラーニングモデルの性能向上のための新しいフレームワークを提案する。
本稿では,拡張サンプルの重み/品質情報を効果的に活用するための,新しい重み依存型列列とデキューアルゴリズムを提案する。
本フレームワークでは,テキストCNNエンコーダの平均1.6%,テキストCNNエンコーダの平均4.3%,RoBERTaベースエンコーダの平均1.4%,絶対改善の4.4%を実現している。
論文 参考訳(メタデータ) (2024-09-26T02:19:13Z) - On Evaluation Protocols for Data Augmentation in a Limited Data Scenario [11.09784120582206]
古典的なデータ拡張(文を修飾する)は、単により優れた微調整を行う方法であることを示す。
さらに,ChatGPT や LLama2 のような対話型エージェントによるゼロショットDAでは,性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-22T16:42:37Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。