Fugu-MT 論文翻訳(概要): Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities

論文の概要: Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities

arxiv url: http://arxiv.org/abs/2405.20959v1
Date: Fri, 31 May 2024 16:00:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 13:48:55.087650
Title: Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities
Title（参考訳）: 語彙データ合成研究のナビゲート:ユーザニーズとツール機能を理解する
Authors: Maria F. Davila R., Sven Groen, Fabian Panse, Wolfram Wingerath,
Abstract要約: タブラルデータ合成(TDS)における技術の現状について調査する。機能要件と非機能要件のセットを定義することにより,ユーザのニーズを検討する。我々はユーザがアプリケーションに適したTDSツールを見つけるのを助けるための意思決定ガイドを開発した。
参考スコア（独自算出の注目度）: 1.2535250082638645
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In an era of rapidly advancing data-driven applications, there is a growing demand for data in both research and practice. Synthetic data have emerged as an alternative when no real data is available (e.g., due to privacy regulations). Synthesizing tabular data presents unique and complex challenges, especially handling (i) missing values, (ii) dataset imbalance, (iii) diverse column types, and (iv) complex data distributions, as well as preserving (i) column correlations, (ii) temporal dependencies, and (iii) integrity constraints (e.g., functional dependencies) present in the original dataset. While substantial progress has been made recently in the context of generational models, there is no one-size-fits-all solution for tabular data today, and choosing the right tool for a given task is therefore no trivial task. In this paper, we survey the state of the art in Tabular Data Synthesis (TDS), examine the needs of users by defining a set of functional and non-functional requirements, and compile the challenges associated with meeting those needs. In addition, we evaluate the reported performance of 36 popular research TDS tools about these requirements and develop a decision guide to help users find suitable TDS tools for their applications. The resulting decision guide also identifies significant research gaps.
Abstract（参考訳）: 急速に進歩するデータ駆動アプリケーションの時代には、研究と実践の両方において、データに対する需要が高まっています。実際のデータが利用できない場合(例えばプライバシー規制のため)、合成データが代替手段として登場した。表データの合成は、特に処理において、ユニークで複雑な課題を提示する (i)値の欠落。 (ii)データセットの不均衡 (三)多彩な柱型、及び (四)複雑なデータ分布及び保存 (i)カラム相関 (二)時間的依存関係、及び (iii)元のデータセットに存在する整合性制約(例えば、関数的依存関係)。最近、世代モデルの文脈でかなりの進歩があったが、現在、表データに対して一大のソリューションはなく、与えられたタスクに対して適切なツールを選択することは簡単な作業ではない。本稿では,タブラルデータ合成(TDS)の現状を調査し,機能要件と非機能要件のセットを定義してユーザのニーズを調査し,それらのニーズを満たすための課題をコンパイルする。さらに,これらの要件について36種類のTDSツールの報告された性能を評価し,ユーザがアプリケーションに適したTDSツールを見つけるための意思決定ガイドを開発した。結果として得られる決定ガイドは、重要な研究ギャップも識別する。

関連論文リスト

Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms [81.90219895125178]
Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。基礎となる言語モデルは、長い水平推論に最適化されないことが多いため、これらのタスクは依然として困難なままである。複雑化を徐々に進めることで、疑問-答えのペアを生成する2段階のデータ合成パイプラインを導入する。
論文参考訳（メタデータ） (2025-10-15T06:34:46Z)
Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。 DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文参考訳（メタデータ） (2025-09-29T17:23:08Z)
Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models [104.17057231661371]
時系列解析は複雑なシステムの力学を理解するために重要である。基本モデルの最近の進歩はタスク非依存の時系列基礎モデル (TSFM) と大規模言語モデルベース時系列モデル (TSLLM) につながっている。彼らの成功は、規制、多様性、品質、量制約のために構築が困難である、大規模で多様で高品質なデータセットに依存する。本調査では,TSFMとTLLLMの合成データの総合的なレビュー,データ生成戦略の分析,モデル事前学習におけるそれらの役割,微調整,評価,今後の研究方向性の特定について述べる。
論文参考訳（メタデータ） (2025-03-14T13:53:46Z)
A Survey on Tabular Data Generation: Utility, Alignment, Fidelity, Privacy, and Beyond [53.56796220109518]
異なるユースケースは、実際に有用な異なる要件を満たすために合成データを要求する。合成データの実用性、合成データのドメイン固有の知識との整合性、実際のデータ分布と比較しての合成データ分布の統計的忠実度、プライバシ保護能力の4つの要件をレビューする。今後の分野の方向性と、現在の評価方法を改善する機会について論じる。
論文参考訳（メタデータ） (2025-03-07T21:47:11Z)
LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Fully Test-time Adaptation for Tabular Data [48.67303250592189]
本稿では,FTTA法で予測のラベル分布を頑健に最適化できる,タブラルデータに対する完全テスト時間適応を提案する。我々は6つのベンチマークデータセットに関する総合的な実験を行い、3つの指標を用いて評価した。
論文参考訳（メタデータ） (2024-12-14T15:49:53Z)
Synthetic Data Generation with Large Language Models for Personalized Community Question Answering [47.300506002171275]
既存のデータセットであるSE-PQAに基づいてSy-SE-PQAを構築します。以上の結果から,LCMはユーザのニーズに合わせてデータを生成する可能性が高いことが示唆された。合成データは、たとえ生成されたデータが誤った情報を含むとしても、人書きのトレーニングデータを置き換えることができる。
論文参考訳（メタデータ） (2024-10-29T16:19:08Z)
Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文参考訳（メタデータ） (2024-10-05T17:11:37Z)
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。 TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文参考訳（メタデータ） (2024-06-05T20:32:56Z)
CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文参考訳（メタデータ） (2024-06-02T01:10:41Z)
Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文参考訳（メタデータ） (2024-04-22T17:15:32Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
GAN-based Tabular Data Generator for Constructing Synopsis in Approximate Query Processing: Challenges and Solutions [0.0]
Approximate Query Processing (AQP) は、データ(シノプシス)の要約に基づいて、集約されたクエリに近似した回答を提供する技術である。本研究では,AQPを用いて合成構築を行うことのできる表データ生成におけるGAN(Generative Adversarial Networks)の新規活用について検討する。以上の結果から,データ駆動システムにおけるAQPの効率と有効性に変化をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2022-12-18T05:11:04Z)
A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。データセットを再構成することで、データセットの品質が向上します。
論文参考訳（メタデータ） (2022-10-21T03:58:43Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)
DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2019-12-27T02:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。