論文の概要: QUIS: Question-guided Insights Generation for Automated Exploratory Data Analysis
- arxiv url: http://arxiv.org/abs/2410.10270v2
- Date: Mon, 21 Oct 2024 08:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:05:09.585299
- Title: QUIS: Question-guided Insights Generation for Automated Exploratory Data Analysis
- Title(参考訳): QUIS:自動探索データ分析のための質問誘導インサイト生成
- Authors: Abhijit Manatkar, Ashlesha Akella, Parthivi Gupta, Krishnasuri Narayanam,
- Abstract要約: 質問生成による洞察生成(ISGen)と質問生成(QUGen)の2段階で動作する完全自動化EDAシステムQUISを紹介する。
ISGenモジュールはデータを分析して、各質問に対する複数の関連する洞察を生成し、事前のトレーニングを必要とせず、QUISが新しいデータセットに適応できるようにする。
- 参考スコア(独自算出の注目度): 1.9521598508325781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering meaningful insights from a large dataset, known as Exploratory Data Analysis (EDA), is a challenging task that requires thorough exploration and analysis of the data. Automated Data Exploration (ADE) systems use goal-oriented methods with Large Language Models and Reinforcement Learning towards full automation. However, these methods require human involvement to anticipate goals that may limit insight extraction, while fully automated systems demand significant computational resources and retraining for new datasets. We introduce QUIS, a fully automated EDA system that operates in two stages: insight generation (ISGen) driven by question generation (QUGen). The QUGen module generates questions in iterations, refining them from previous iterations to enhance coverage without human intervention or manually curated examples. The ISGen module analyzes data to produce multiple relevant insights in response to each question, requiring no prior training and enabling QUIS to adapt to new datasets.
- Abstract(参考訳): 探索データ分析(Exploratory Data Analysis, EDA)として知られる大規模なデータセットから意味のある洞察を発見することは、データの徹底的な探索と分析を必要とする難しいタスクである。
ADE(Automated Data Exploration)システムは,大規模言語モデルによる目標指向の手法と,完全な自動化に向けた強化学習を使用する。
しかしながら、これらの手法は人間の関与を必要とし、洞察抽出を制限する目標を予測し、一方完全に自動化されたシステムは重要な計算資源を必要とし、新しいデータセットを再訓練する。
本稿では,質問生成(QUGen)によって駆動される洞察生成(ISGen)という,完全に自動化されたEDAシステムであるQUISを紹介する。
QUGenモジュールはイテレーションで質問を生成し、以前のイテレーションから修正して、人間の介入や手動でキュレートされた例なしにカバレッジを高める。
ISGenモジュールはデータを分析して、各質問に対する複数の関連する洞察を生成し、事前のトレーニングを必要とせず、QUISが新しいデータセットに適応できるようにする。
関連論文リスト
- ILAEDA: An Imitation Learning Based Approach for Automatic Exploratory Data Analysis [5.012314384895538]
我々は、操作を重要なものにする重要な特徴のすべてが、報酬を使って数学的に正確にキャプチャできるわけではないと論じる。
本稿では,専門家EDAセッションの模倣学習を通じて訓練されたAutoEDAモデルを提案する。
提案手法は,既存のエンドツーエンドEDA手法を最大3倍のベンチマークで上回り,高い性能と一般化を示す。
論文 参考訳(メタデータ) (2024-10-15T04:56:13Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Automated data processing and feature engineering for deep learning and big data applications: a survey [0.0]
現代の人工知能(AI)のアプローチは、データから直接学習するアルゴリズムを設計することを目的としている。
従来のディープラーニングパイプラインのすべてのデータ処理タスクが自動化されたわけではない。
論文 参考訳(メタデータ) (2024-03-18T01:07:48Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - Design & Implementation of Automatic Machine Condition Monitoring and
Maintenance System in Limited Resource Situations [0.0]
第4次産業革命の時代には,機械の故障検出と診断の自動化が不可欠である。
一部の機械の健康モニタリングシステムは世界中で使用されているが、高価であり、操作と分析のために訓練された人員を必要としている。
発展途上国では、インフラの不十分、熟練した人材の不足、金融危機などの理由から、予測的保守と労働安全文化は利用できない。
論文 参考訳(メタデータ) (2024-01-22T08:06:04Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [130.87142103774752]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。
高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。
また、解決を保障する科学的、技術的課題も検討している。
論文 参考訳(メタデータ) (2023-12-06T10:46:53Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - How Can Subgroup Discovery Help AIOps? [0.0]
サブグループディスカバリがAIOpsにどのように役立つかを研究する。
このプロジェクトには、フランスのソフトウェアエディタであるInfologicalのデータマイニングの研究者と実践者の両方が含まれる。
論文 参考訳(メタデータ) (2021-09-10T14:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。