論文の概要: GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions
- arxiv url: http://arxiv.org/abs/2212.09015v1
- Date: Sun, 18 Dec 2022 05:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:54:32.651441
- Title: GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions
- Title(参考訳): 近似クエリ処理における合成構築のためのGANベースタブラルデータジェネレータ:課題と解決
- Authors: Mohammadali Fallahian, Mohsen Dorodchi, Kyle Kreth
- Abstract要約: データ駆動システムでは、リアルタイムな意思決定にはデータ探索が不可欠である。
ビッグデータは、取得が難しい巨大なデータベースに格納されます。
近似クエリ処理(英: Approximate Query Processing)は、集約クエリに近似した回答を提供する技術である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In data-driven systems, data exploration is imperative for making real-time
decisions. However, big data is stored in massive databases that are difficult
to retrieve. Approximate Query Processing (AQP) is a technique for providing
approximate answers to aggregate queries based on a summary of the data
(synopsis) that closely replicates the behavior of the actual data, which can
be useful where an approximate answer to the queries would be acceptable in a
fraction of the real execution time. In this paper, we discuss the use of
Generative Adversarial Networks (GANs) for generating tabular data that can be
employed in AQP for synopsis construction. We first discuss the challenges
associated with constructing synopses in relational databases and then
introduce solutions to those challenges. Following that, we organized
statistical metrics to evaluate the quality of the generated synopses. We
conclude that tabular data complexity makes it difficult for algorithms to
understand relational database semantics during training, and improved versions
of tabular GANs are capable of constructing synopses to revolutionize
data-driven decision-making systems.
- Abstract(参考訳): データ駆動システムでは、リアルタイムな意思決定にはデータ探索が不可欠である。
しかし、ビッグデータは取得が困難な巨大なデータベースに格納される。
近似クエリ処理(英: Approximate Query Processing、AQP)は、実際のデータの振る舞いを忠実に再現するデータ(シノプシス)の要約に基づいて、集約されたクエリに近似的な回答を提供する技術である。
本稿では,AQPで合成構築に使用できる表データを生成するためのGAN(Generative Adversarial Networks)について論じる。
まず,リレーショナルデータベースにおけるシナプス構築に関わる課題について論じ,その課題に対する解決策を紹介する。
その後,生成したシナプスの品質を評価するため,統計的指標を整理した。
学習中の関係データベースのセマンティクスをアルゴリズムが理解することが難しくなり,表型GANの改良版では,データ駆動型意思決定システムに革命をもたらすシナプスの構築が可能になった。
関連論文リスト
- A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities [1.2535250082638645]
タブラルデータ合成(TDS)における技術の現状について調査する。
機能要件と非機能要件のセットを定義することにより,ユーザのニーズを検討する。
我々はユーザがアプリケーションに適したTDSツールを見つけるのを助けるための意思決定ガイドを開発した。
論文 参考訳(メタデータ) (2024-05-31T16:00:43Z) - A Correlation- and Mean-Aware Loss Function and Benchmarking Framework to Improve GAN-based Tabular Data Synthesis [2.2451409468083114]
本稿では,GAN(Generative Adversarial Network)のための新しい相関と平均認識損失関数を提案する。
提案した損失関数は、真のデータ分布をキャプチャする既存の手法よりも統計的に有意な改善を示す。
ベンチマークフレームワークは、強化された合成データ品質により、下流の機械学習タスクのパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-05-27T09:08:08Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Evaluating the Capabilities of Multi-modal Reasoning Models with
Synthetic Task Data [0.0]
我々は高解像度テキスト・画像生成の進歩を活用し、マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。
このフレームワークを用いて、コンテキスト依存の異常データを生成し、困難なタスクに合成データセットを作成する。
我々は,タスクが抽出可能である一方で,標準的なVQAタスクよりもコンテキスト依存型異常検出タスクでは,モデルが大幅に悪化することを示した。
論文 参考訳(メタデータ) (2023-06-01T20:56:34Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。