論文の概要: GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions
- arxiv url: http://arxiv.org/abs/2212.09015v2
- Date: Thu, 9 Nov 2023 14:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 19:01:50.579318
- Title: GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions
- Title(参考訳): 近似クエリ処理における合成構築のためのGANベースタブラルデータジェネレータ:課題と解決
- Authors: Mohammadali Fallahian, Mohsen Dorodchi, Kyle Kreth
- Abstract要約: Approximate Query Processing (AQP) は、データ(シノプシス)の要約に基づいて、集約されたクエリに近似した回答を提供する技術である。
本研究では,AQPを用いて合成構築を行うことのできる表データ生成におけるGAN(Generative Adversarial Networks)の新規活用について検討する。
以上の結果から,データ駆動システムにおけるAQPの効率と有効性に変化をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In data-driven systems, data exploration is imperative for making real-time
decisions. However, big data is stored in massive databases that are difficult
to retrieve. Approximate Query Processing (AQP) is a technique for providing
approximate answers to aggregate queries based on a summary of the data
(synopsis) that closely replicates the behavior of the actual data, which can
be useful where an approximate answer to the queries would be acceptable in a
fraction of the real execution time. This study explores the novel utilization
of Generative Adversarial Networks (GANs) in the generation of tabular data
that can be employed in AQP for synopsis construction. We thoroughly
investigate the unique challenges posed by the synopsis construction process,
including maintaining data distribution characteristics, handling bounded
continuous and categorical data, and preserving semantic relationships and then
introduce the advancement of tabular GAN architectures that overcome these
challenges. Furthermore, we propose and validate a suite of statistical metrics
tailored for assessing the reliability of the GAN-generated synopses. Our
findings demonstrate that advanced GAN variations exhibit a promising capacity
to generate high-fidelity synopses, potentially transforming the efficiency and
effectiveness of AQP in data-driven systems.
- Abstract(参考訳): データ駆動システムでは、リアルタイムな意思決定にはデータ探索が不可欠である。
しかし、ビッグデータは取得が困難な巨大なデータベースに格納される。
近似クエリ処理(英: Approximate Query Processing、AQP)は、実際のデータの振る舞いを忠実に再現するデータ(シノプシス)の要約に基づいて、集約されたクエリに近似的な回答を提供する技術である。
本研究では,AQPを用いて合成構築を行うことのできる表データ生成におけるGAN(Generative Adversarial Networks)の新規活用について検討する。
本稿では,データ分散特性の維持,境界データの扱い,意味的関係の保存,そしてこれらの課題を克服する表型GANアーキテクチャの進歩など,シナプス構築プロセスがもたらす固有の課題について,徹底的に検討する。
さらに,gan生成シナプスの信頼性を評価するために調整された統計指標の組を提案・検証する。
以上の結果から,データ駆動システムにおけるAQPの効率と有効性に変化をもたらす可能性が示唆された。
関連論文リスト
- DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - $\texttt{causalAssembly}$: Generating Realistic Production Data for
Benchmarking Causal Discovery [1.3048920509133808]
我々は、因果探索手法のベンチマークをサポートする半合成製造データを生成するシステムを構築した。
我々は、柔軟に推定し、条件分布を表すために分布ランダムな森林を用いる。
このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。
論文 参考訳(メタデータ) (2023-06-19T10:05:54Z) - Evaluating the Capabilities of Multi-modal Reasoning Models with
Synthetic Task Data [0.0]
我々は高解像度テキスト・画像生成の進歩を活用し、マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。
このフレームワークを用いて、コンテキスト依存の異常データを生成し、困難なタスクに合成データセットを作成する。
我々は,タスクが抽出可能である一方で,標準的なVQAタスクよりもコンテキスト依存型異常検出タスクでは,モデルが大幅に悪化することを示した。
論文 参考訳(メタデータ) (2023-06-01T20:56:34Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link
Predictors [65.56849255423866]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - Conditional GAN for timeseries generation [0.0]
実時間時系列データをモデル化するために,TSGAN(Time Series GAN)を提案する。
ベンチマーク時系列データベースから,70データセット上でTSGANを評価する。
論文 参考訳(メタデータ) (2020-06-30T02:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。