論文の概要: Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities
- arxiv url: http://arxiv.org/abs/2405.20959v1
- Date: Fri, 31 May 2024 16:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:48:55.087650
- Title: Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities
- Title(参考訳): 語彙データ合成研究のナビゲート:ユーザニーズとツール機能を理解する
- Authors: Maria F. Davila R., Sven Groen, Fabian Panse, Wolfram Wingerath,
- Abstract要約: タブラルデータ合成(TDS)における技術の現状について調査する。
機能要件と非機能要件のセットを定義することにより,ユーザのニーズを検討する。
我々はユーザがアプリケーションに適したTDSツールを見つけるのを助けるための意思決定ガイドを開発した。
- 参考スコア(独自算出の注目度): 1.2535250082638645
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In an era of rapidly advancing data-driven applications, there is a growing demand for data in both research and practice. Synthetic data have emerged as an alternative when no real data is available (e.g., due to privacy regulations). Synthesizing tabular data presents unique and complex challenges, especially handling (i) missing values, (ii) dataset imbalance, (iii) diverse column types, and (iv) complex data distributions, as well as preserving (i) column correlations, (ii) temporal dependencies, and (iii) integrity constraints (e.g., functional dependencies) present in the original dataset. While substantial progress has been made recently in the context of generational models, there is no one-size-fits-all solution for tabular data today, and choosing the right tool for a given task is therefore no trivial task. In this paper, we survey the state of the art in Tabular Data Synthesis (TDS), examine the needs of users by defining a set of functional and non-functional requirements, and compile the challenges associated with meeting those needs. In addition, we evaluate the reported performance of 36 popular research TDS tools about these requirements and develop a decision guide to help users find suitable TDS tools for their applications. The resulting decision guide also identifies significant research gaps.
- Abstract(参考訳): 急速に進歩するデータ駆動アプリケーションの時代には、研究と実践の両方において、データに対する需要が高まっています。
実際のデータが利用できない場合(例えばプライバシー規制のため)、合成データが代替手段として登場した。
表データの合成は、特に処理において、ユニークで複雑な課題を提示する
(i)値の欠落。
(ii)データセットの不均衡
(三)多彩な柱型、及び
(四)複雑なデータ分布及び保存
(i)カラム相関
(二)時間的依存関係、及び
(iii)元のデータセットに存在する整合性制約(例えば、関数的依存関係)。
最近、世代モデルの文脈でかなりの進歩があったが、現在、表データに対して一大のソリューションはなく、与えられたタスクに対して適切なツールを選択することは簡単な作業ではない。
本稿では,タブラルデータ合成(TDS)の現状を調査し,機能要件と非機能要件のセットを定義してユーザのニーズを調査し,それらのニーズを満たすための課題をコンパイルする。
さらに,これらの要件について36種類のTDSツールの報告された性能を評価し,ユーザがアプリケーションに適したTDSツールを見つけるための意思決定ガイドを開発した。
結果として得られる決定ガイドは、重要な研究ギャップも識別する。
関連論文リスト
- TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
この設定をよりよく評価し、モデリング作業を容易にするために、テーブルを通してのテキストと計算について紹介する。
TACTには、1つ以上のテキストに散在する縫合情報を要求し、この情報を複雑な統合して回答を生成する、困難な命令が含まれている。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Continual Release of Differentially Private Synthetic Data from Longitudinal Data Collections [19.148874215745135]
本研究では,縦方向のデータ収集から微分プライベートな合成データを連続的に放出する問題について検討する。
各ステップごとに、各ステップが新しいデータ要素をレポートするモデルを導入します。
本稿では,2種類のクエリを連続的に保存する合成データ生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-13T16:22:08Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions [0.0]
Approximate Query Processing (AQP) は、データ(シノプシス)の要約に基づいて、集約されたクエリに近似した回答を提供する技術である。
本研究では,AQPを用いて合成構築を行うことのできる表データ生成におけるGAN(Generative Adversarial Networks)の新規活用について検討する。
以上の結果から,データ駆動システムにおけるAQPの効率と有効性に変化をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-18T05:11:04Z) - A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。
クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。
データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。
データセットを再構成することで、データセットの品質が向上します。
論文 参考訳(メタデータ) (2022-10-21T03:58:43Z) - PIETS: Parallelised Irregularity Encoders for Forecasting with
Heterogeneous Time-Series [5.911865723926626]
マルチソースデータセットの不均一性と不規則性は時系列解析において重要な課題となる。
本研究では、異種時系列をモデル化するための新しいアーキテクチャ、PIETSを設計する。
PIETSは異種時間データを効果的にモデル化し、予測タスクにおける他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-30T20:01:19Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。