論文の概要: GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions
- arxiv url: http://arxiv.org/abs/2212.09015v1
- Date: Sun, 18 Dec 2022 05:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:54:32.651441
- Title: GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions
- Title(参考訳): 近似クエリ処理における合成構築のためのGANベースタブラルデータジェネレータ:課題と解決
- Authors: Mohammadali Fallahian, Mohsen Dorodchi, Kyle Kreth
- Abstract要約: データ駆動システムでは、リアルタイムな意思決定にはデータ探索が不可欠である。
ビッグデータは、取得が難しい巨大なデータベースに格納されます。
近似クエリ処理(英: Approximate Query Processing)は、集約クエリに近似した回答を提供する技術である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In data-driven systems, data exploration is imperative for making real-time
decisions. However, big data is stored in massive databases that are difficult
to retrieve. Approximate Query Processing (AQP) is a technique for providing
approximate answers to aggregate queries based on a summary of the data
(synopsis) that closely replicates the behavior of the actual data, which can
be useful where an approximate answer to the queries would be acceptable in a
fraction of the real execution time. In this paper, we discuss the use of
Generative Adversarial Networks (GANs) for generating tabular data that can be
employed in AQP for synopsis construction. We first discuss the challenges
associated with constructing synopses in relational databases and then
introduce solutions to those challenges. Following that, we organized
statistical metrics to evaluate the quality of the generated synopses. We
conclude that tabular data complexity makes it difficult for algorithms to
understand relational database semantics during training, and improved versions
of tabular GANs are capable of constructing synopses to revolutionize
data-driven decision-making systems.
- Abstract(参考訳): データ駆動システムでは、リアルタイムな意思決定にはデータ探索が不可欠である。
しかし、ビッグデータは取得が困難な巨大なデータベースに格納される。
近似クエリ処理(英: Approximate Query Processing、AQP)は、実際のデータの振る舞いを忠実に再現するデータ(シノプシス)の要約に基づいて、集約されたクエリに近似的な回答を提供する技術である。
本稿では,AQPで合成構築に使用できる表データを生成するためのGAN(Generative Adversarial Networks)について論じる。
まず,リレーショナルデータベースにおけるシナプス構築に関わる課題について論じ,その課題に対する解決策を紹介する。
その後,生成したシナプスの品質を評価するため,統計的指標を整理した。
学習中の関係データベースのセマンティクスをアルゴリズムが理解することが難しくなり,表型GANの改良版では,データ駆動型意思決定システムに革命をもたらすシナプスの構築が可能になった。
関連論文リスト
- DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - $\texttt{causalAssembly}$: Generating Realistic Production Data for
Benchmarking Causal Discovery [1.3048920509133808]
我々は、因果探索手法のベンチマークをサポートする半合成製造データを生成するシステムを構築した。
我々は、柔軟に推定し、条件分布を表すために分布ランダムな森林を用いる。
このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。
論文 参考訳(メタデータ) (2023-06-19T10:05:54Z) - Evaluating the Capabilities of Multi-modal Reasoning Models with
Synthetic Task Data [0.0]
我々は高解像度テキスト・画像生成の進歩を活用し、マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。
このフレームワークを用いて、コンテキスト依存の異常データを生成し、困難なタスクに合成データセットを作成する。
我々は,タスクが抽出可能である一方で,標準的なVQAタスクよりもコンテキスト依存型異常検出タスクでは,モデルが大幅に悪化することを示した。
論文 参考訳(メタデータ) (2023-06-01T20:56:34Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link
Predictors [65.56849255423866]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - Conditional GAN for timeseries generation [0.0]
実時間時系列データをモデル化するために,TSGAN(Time Series GAN)を提案する。
ベンチマーク時系列データベースから,70データセット上でTSGANを評価する。
論文 参考訳(メタデータ) (2020-06-30T02:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。