論文の概要: Tabular Data Augmentation for Machine Learning: Progress and Prospects of Embracing Generative AI
- arxiv url: http://arxiv.org/abs/2407.21523v1
- Date: Wed, 31 Jul 2024 10:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:02:39.950022
- Title: Tabular Data Augmentation for Machine Learning: Progress and Prospects of Embracing Generative AI
- Title(参考訳): 機械学習のためのタブラルデータ拡張 : 生成AIの導入の進展と展望
- Authors: Lingxi Cui, Huan Li, Ke Chen, Lidan Shou, Gang Chen,
- Abstract要約: 本稿では,前処理,拡張処理,後処理の3つの主要な手順からなるパイプラインのアーキテクチャビューを示す。
我々はまた、TDAの現在の傾向と今後の方向性を要約し、生成AIの時代における有望な機会を強調した。
- 参考スコア(独自算出の注目度): 15.992985583785316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) on tabular data is ubiquitous, yet obtaining abundant high-quality tabular data for model training remains a significant obstacle. Numerous works have focused on tabular data augmentation (TDA) to enhance the original table with additional data, thereby improving downstream ML tasks. Recently, there has been a growing interest in leveraging the capabilities of generative AI for TDA. Therefore, we believe it is time to provide a comprehensive review of the progress and future prospects of TDA, with a particular emphasis on the trending generative AI. Specifically, we present an architectural view of the TDA pipeline, comprising three main procedures: pre-augmentation, augmentation, and post-augmentation. Pre-augmentation encompasses preparation tasks that facilitate subsequent TDA, including error handling, table annotation, table simplification, table representation, table indexing, table navigation, schema matching, and entity matching. Augmentation systematically analyzes current TDA methods, categorized into retrieval-based methods, which retrieve external data, and generation-based methods, which generate synthetic data. We further subdivide these methods based on the granularity of the augmentation process at the row, column, cell, and table levels. Post-augmentation focuses on the datasets, evaluation and optimization aspects of TDA. We also summarize current trends and future directions for TDA, highlighting promising opportunities in the era of generative AI. In addition, the accompanying papers and related resources are continuously updated and maintained in the GitHub repository at https://github.com/SuDIS-ZJU/awesome-tabular-data-augmentation to reflect ongoing advancements in the field.
- Abstract(参考訳): 表データ上の機械学習(ML)はユビキタスだが、モデルトレーニングのための高品質な表データを取得することは大きな障害である。
多数の作業がTDA(Tabular Data Augmentation)に重点を置いており、元のテーブルにデータを追加して拡張することで、下流のMLタスクを改善している。
近年、TDAに生成AIの能力を活用することへの関心が高まっている。
したがって、我々はTDAの進歩と今後の展望を包括的にレビューする時が来たと信じており、特にトレンドとなるジェネレーティブAIに重点を置いている。
具体的には,前処理,拡張処理,後処理の3つの主要な手順を含む,TDAパイプラインのアーキテクチャビューを示す。
事前拡張には、エラー処理、テーブルアノテーション、テーブルの単純化、テーブル表現、テーブルインデックス、テーブルナビゲーション、スキーママッチング、エンティティマッチングなど、その後のTDAを促進する準備作業が含まれる。
Augmentationは、現在のTDAメソッドを体系的に分析し、外部データを取得する検索ベースメソッドと、合成データを生成する生成ベースメソッドに分類する。
さらに, 行, 列, セル, テーブルレベルの増大過程の粒度に基づいて, これらの手法を分割する。
後強化は、TDAのデータセット、評価、最適化の側面に焦点を当てている。
我々はまた、TDAの現在の傾向と今後の方向性を要約し、生成AIの時代における有望な機会を強調した。
さらに、関連する論文や関連リソースは、GitHubリポジトリのhttps://github.com/SuDIS-ZJU/awesome-tabular-data-augmentationで継続的に更新され、メンテナンスされる。
関連論文リスト
- TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting [23.461204546005387]
TabMDAは、表データの多様体データ拡張のための新しい方法である。
これは、TabPFNのような事前訓練されたインコンテキストモデルを利用して、データを埋め込みスペースにマッピングする。
我々は,TabMDAを5つの標準分類器上で評価し,各種データセット間での大幅な性能向上を観察した。
論文 参考訳(メタデータ) (2024-06-03T21:51:13Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - Enhancing Few-shot NER with Prompt Ordering based Data Augmentation [59.69108119752584]
本稿では,PODA(Prompt Ordering Based Data Augmentation)手法を提案する。
3つのパブリックNERデータセットの実験結果とさらなる分析により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-19T16:25:43Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Understanding tables with intermediate pre-training [11.96734018295146]
我々は、テーブルベースのBERTモデルであるTAPAASを適用して、エンターテイメントを認識する。
我々は,テーブルプルーニングを前処理ステップとして評価し,トレーニングと予測効率を大幅に向上させる。
論文 参考訳(メタデータ) (2020-10-01T17:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。