論文の概要: GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions
- arxiv url: http://arxiv.org/abs/2212.09015v2
- Date: Thu, 9 Nov 2023 14:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 19:01:50.579318
- Title: GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions
- Title(参考訳): 近似クエリ処理における合成構築のためのGANベースタブラルデータジェネレータ:課題と解決
- Authors: Mohammadali Fallahian, Mohsen Dorodchi, Kyle Kreth
- Abstract要約: Approximate Query Processing (AQP) は、データ(シノプシス)の要約に基づいて、集約されたクエリに近似した回答を提供する技術である。
本研究では,AQPを用いて合成構築を行うことのできる表データ生成におけるGAN(Generative Adversarial Networks)の新規活用について検討する。
以上の結果から,データ駆動システムにおけるAQPの効率と有効性に変化をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In data-driven systems, data exploration is imperative for making real-time
decisions. However, big data is stored in massive databases that are difficult
to retrieve. Approximate Query Processing (AQP) is a technique for providing
approximate answers to aggregate queries based on a summary of the data
(synopsis) that closely replicates the behavior of the actual data, which can
be useful where an approximate answer to the queries would be acceptable in a
fraction of the real execution time. This study explores the novel utilization
of Generative Adversarial Networks (GANs) in the generation of tabular data
that can be employed in AQP for synopsis construction. We thoroughly
investigate the unique challenges posed by the synopsis construction process,
including maintaining data distribution characteristics, handling bounded
continuous and categorical data, and preserving semantic relationships and then
introduce the advancement of tabular GAN architectures that overcome these
challenges. Furthermore, we propose and validate a suite of statistical metrics
tailored for assessing the reliability of the GAN-generated synopses. Our
findings demonstrate that advanced GAN variations exhibit a promising capacity
to generate high-fidelity synopses, potentially transforming the efficiency and
effectiveness of AQP in data-driven systems.
- Abstract(参考訳): データ駆動システムでは、リアルタイムな意思決定にはデータ探索が不可欠である。
しかし、ビッグデータは取得が困難な巨大なデータベースに格納される。
近似クエリ処理(英: Approximate Query Processing、AQP)は、実際のデータの振る舞いを忠実に再現するデータ(シノプシス)の要約に基づいて、集約されたクエリに近似的な回答を提供する技術である。
本研究では,AQPを用いて合成構築を行うことのできる表データ生成におけるGAN(Generative Adversarial Networks)の新規活用について検討する。
本稿では,データ分散特性の維持,境界データの扱い,意味的関係の保存,そしてこれらの課題を克服する表型GANアーキテクチャの進歩など,シナプス構築プロセスがもたらす固有の課題について,徹底的に検討する。
さらに,gan生成シナプスの信頼性を評価するために調整された統計指標の組を提案・検証する。
以上の結果から,データ駆動システムにおけるAQPの効率と有効性に変化をもたらす可能性が示唆された。
関連論文リスト
- TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。
これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。
非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文 参考訳(メタデータ) (2024-12-27T09:16:39Z) - DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。
本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文 参考訳(メタデータ) (2024-12-09T08:47:05Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities [1.2535250082638645]
タブラルデータ合成(TDS)における技術の現状について調査する。
機能要件と非機能要件のセットを定義することにより,ユーザのニーズを検討する。
我々はユーザがアプリケーションに適したTDSツールを見つけるのを助けるための意思決定ガイドを開発した。
論文 参考訳(メタデータ) (2024-05-31T16:00:43Z) - A Correlation- and Mean-Aware Loss Function and Benchmarking Framework to Improve GAN-based Tabular Data Synthesis [2.2451409468083114]
本稿では,GAN(Generative Adversarial Network)のための新しい相関と平均認識損失関数を提案する。
提案した損失関数は、真のデータ分布をキャプチャする既存の手法よりも統計的に有意な改善を示す。
ベンチマークフレームワークは、強化された合成データ品質により、下流の機械学習タスクのパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-05-27T09:08:08Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。