論文の概要: A Survey on Data Augmentation for Text Classification
- arxiv url: http://arxiv.org/abs/2107.03158v1
- Date: Wed, 7 Jul 2021 11:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 14:16:09.964223
- Title: A Survey on Data Augmentation for Text Classification
- Title(参考訳): テキスト分類のためのデータ拡張に関する調査
- Authors: Markus Bayer, Marc-Andr\'e Kaufhold, Christian Reuter
- Abstract要約: データ拡張は、変換による機械学習のためのトレーニングデータの人工的な作成である。
目標を規則化し、限られた量のトレーニングデータを克服することから、プライバシを保護するために使用されるデータ量を制限することまで、多くの課題や問題に対処することができる。
本調査は,テキスト分類のためのデータ拡張手法に関するもので,研究者や実践者の簡潔で包括的な概要を実現することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation, the artificial creation of training data for machine
learning by transformations, is a widely studied research field across machine
learning disciplines. While it is useful for increasing the generalization
capabilities of a model, it can also address many other challenges and
problems, from overcoming a limited amount of training data over regularizing
the objective to limiting the amount data used to protect privacy. Based on a
precise description of the goals and applications of data augmentation (C1) and
a taxonomy for existing works (C2), this survey is concerned with data
augmentation methods for textual classification and aims to achieve a concise
and comprehensive overview for researchers and practitioners (C3). Derived from
the taxonomy, we divided more than 100 methods into 12 different groupings and
provide state-of-the-art references expounding which methods are highly
promising (C4). Finally, research perspectives that may constitute a building
block for future work are given (C5).
- Abstract(参考訳): データ拡張(Data augmentation)は、機械学習のトレーニングデータの変換による人工的な生成であり、機械学習の分野にわたって広く研究されている分野である。
モデルの一般化能力を高めるのに役立つが、目標を正規化することで限られた量のトレーニングデータを克服し、プライバシを保護するために使用されるデータ量を制限することなど、他の多くの課題や問題にも対処できる。
本調査は,データ増補(C1)の目標と適用の正確な記述と,既存の作業のための分類(C2)に基づいて,テキスト分類のためのデータ増補手法について検討し,研究者や実践者に対する簡潔かつ包括的な概要の実現を目的とする。
分類学から派生して,100以上のメソッドを12の異なるグループに分割し,どのメソッドが有望かを示す最先端のリファレンス(C4。
最後に、将来の作業のためのビルディングブロックを構成する研究視点を付与する(C5)。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Data Augmentation for Multivariate Time Series Classification: An Experimental Study [1.5390962520179197]
これらのデータセットのサイズは限られていますが、RocketとInceptionTimeモデルを使用して、13のデータセットのうち10の分類精度を向上しました。
これは、コンピュータビジョンで見られる進歩と並行して、効果的なモデルを訓練する上で、十分なデータの重要性を強調している。
論文 参考訳(メタデータ) (2024-06-10T17:58:02Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Towards Heterogeneous Long-tailed Learning: Benchmarking, Metrics, and Toolbox [9.202606514025653]
長期データ配信は、eコマース、金融、バイオメディカルサイエンス、サイバーセキュリティなど、さまざまな分野に課題をもたらす。
私たちはHeroLTを開発した。HeroLTは18の最先端アルゴリズム、10の評価指標、および6つのタスクと4つのデータモダリティにわたる17の現実世界データセットを統合した、包括的な長期学習ベンチマークだ。
論文 参考訳(メタデータ) (2023-07-17T04:32:45Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。